- 博客(72)
- 收藏
- 关注
原创 AMD中使用的损失函数(公式在typora是正常的啊哭)
真实标签通常是 “硬的”(如仅标注 “猫”),而教师模型的输出可能包含更丰富的信息(如 “80% 猫,15% 虎斑猫,5% 其他”)。用于度量学习(如人脸识别、文本相似度),通过优化 “锚点(Anchor)、正样本(Positive)、负样本(Negative)” 的距离,使同类样本更近、异类样本更远。,其中(d(a,p))为锚点与正样本的距离,(d(a,n))为锚点与负样本的距离,(\alpha)为间隔。,其中C为类别数,(y_i)为第i类的真实标签(0 或 1),(p_i)为预测概率。
2025-07-22 00:06:18
1051
原创 评估效果的指标(研究生被骂日常)
本文系统总结了量化模型的评估指标,分为四类:1)核心性能指标(准确率、困惑度、BLEU/ROUGE),衡量量化后模型的功能一致性;2)效率指标(压缩率、速度提升比、内存带宽),反映存储和计算优化效果;3)误差指标(MSE、SNR、动态范围覆盖率),分析量化过程的信息损失;4)实用性指标(硬件兼容性、量化开销),评估工程落地可行性。这些指标共同构成了量化模型评估的完整框架,需根据不同应用场景权衡选择。
2025-07-10 22:45:53
696
原创 Private Set Generation with Discriminative Information(2211.04446v1)
本文提出了一种差分隐私下的小样本集优化方法(PSG),以解决高维数据生成中的实用性问题。不同于传统深度生成模型,该方法直接优化合成样本集,通过梯度匹配使其在下游任务(如分类)中替代原始数据,同时满足差分隐私约束。实验表明,PSG在MNIST和FashionMNIST上比现有方法提升5-10%的分类准确率,且显著降低计算资源消耗。虽然可能牺牲样本视觉质量,但该方法为隐私保护数据生成提供了新思路,弥合了隐私约束与实用性的鸿沟。
2025-07-06 18:00:00
1714
原创 Dataset Distillation by Matching Training Trajectories(2203.11932)
摘要:针对现有数据集蒸馏方法在真实高分辨率图像处理中的性能瓶颈,本文提出一种基于专家轨迹匹配的新框架。通过预计算真实数据训练的网络参数轨迹作为参考基准,采用长程参数匹配策略优化蒸馏数据,使模型在少量训练步后参数接近专家网络多步训练结果。创新性地引入mini-batch采样和可训练学习率机制,有效降低内存消耗。实验表明,该方法在CIFAR、ImageNet等数据集上显著超越现有技术,如CIFAR-10单类1图像准确率达46.3%,并首次实现128×128分辨率ImageNet的有效蒸馏。局限在于专家轨迹预计算
2025-07-03 18:00:00
1085
原创 DeepKD: A Deeply Decoupled and Denoised Knowledge Distillation Trainer(2505.15133v1)
摘要: DeepKD提出一种新型知识蒸馏框架,解决传统方法中知识组件冲突、非目标类噪声干扰及动量分配不合理等问题。通过双层解耦,将梯度分为任务导向(TOG)、目标类(TCG)和非目标类(NCG)路径,并引入动态Top-k掩码(DTM)过滤低置信度噪声。差异化动量机制(TOG/NCG用μ+Δ,TCG用μ-Δ)优化梯度更新,提升蒸馏效率。实验表明,该框架在CIFAR-100等数据集上显著超越现有方法(如ImageNet提升4.15%),尤其适用于大容量差距场景。核心创新为梯度解耦、动态去噪与理论化动量分配,为模
2025-06-30 20:43:02
615
原创 NPSD详细介绍
NPSD(性能规模导数)是衡量助教模型性价比的关键指标,通过量化性能与规模的权衡关系筛选最优助教模型。其计算仅需教师和助教的性能与规模数据,高效且通用性高。实验表明,NPSD最大时学生模型性能最优,在CIFAR和ImageNet等数据集上显著提升准确率。作为AMD方法的核心指标,NPSD解决了传统多步蒸馏中助教选择的高成本问题,为模型压缩提供了理论支持与工程实践价值,推动大规模视觉模型的高效部署。
2025-06-22 16:04:12
1021
原创 AMD: Automatic Multi-step Distillation of Large-scale Vision Models(2407.04208v1)
摘要:针对传统知识蒸馏在大容量差距(如10倍压缩率)下性能下降的问题,本文提出自动多步蒸馏(AMD)框架。通过结构修剪生成多规模候选助教,联合优化实现参数共享与多目标训练,并创新性提出负性能-规模导数(NPSD)指标自动筛选最优助教。实验表明,AMD在ViT等Transformer模型压缩中显著提升效率(训练时间缩短84%)与精度(CIFAR-10/100分别达95.52%/80.19%),且适用于低比特量化场景。方法优势在于结构化剪枝的硬件通用性、NPSD的自动选择能力,以及联合优化的计算高效性,为边缘部
2025-06-22 16:02:04
807
原创 OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Model(2308.13137)爱豆包版
现有 PTQ 方法(如 GPTQ、AWQ)依赖手工设计量化参数(如缩放因子、迁移强度),在 W2A16、W4A4 等极低比特场景下,量化误差显著,模型困惑度(PPL)骤升(如 GPTQ 在 LLaMA-13B 的 W2A16 量化中 PPL 达 3832)。:将 (Q/K) 的量化难度转移到权重,同时保持 softmax输出等价可学习参数的自适应能力:LWC 和 LET 通过梯度优化可学习参数(如剪裁强度、缩放因子),动态适配权重和激活分布,减少量化噪声。转换为更好表示的参数(LET Y=XW+B)
2025-06-19 20:33:29
833
原创 AFFINEQUANT: AFFINE TRANSFORMATION QUANTI-ZATION FOR LARGE LANGUAGE MODELS(2403.12544v1被bb前的,我先记录一下)
大型语言模型(LLMs)在移动和边缘设备上的推理加速问题,通过压缩技术(量化)来减少模型的存储需求和计算负担提出了一种等价仿射变换的新方法,用于后训练量化中。该方法通过左乘仿射变换矩阵到线性层的权重,并右乘激活的逆矩阵,优化仿射变换矩阵,在低比特量化场景下(确定场景下)显著降低量化误差。
2025-06-05 23:17:03
1104
1
原创 Dataset Distillation with Neural Characteristic Function: A Minmax Perspective 二编被bibi后的补充
将数据集蒸馏表述为minmax优化问题,引入了神经特征函数差异(NCFD),实现了合成样本的真实性和多样性的平衡
2025-06-05 22:16:28
1001
原创 Dataset Distillation with Neural Characteristic Function: A Minmax Perspective(2502.20653v1) 阅读
本文提出了一种基于minmax优化的数据蒸馏方法,通过神经特征函数差异(NCFD)实现了合成数据的真实性和多样性的平衡。该方法将分布匹配转化为对抗性优化问题:先最大化分布差异建立潜在空间,再优化合成数据最小化差异。NCFD作为基于特征函数的度量,能全面捕获分布信息,具有线性时间复杂度。实验表明,该方法在CIFAR100等数据集上达到SOTA,GPU内存使用减少300倍,速度提升20倍,仅需2.3GB显存。相比传统MSE和MMD方法,NCFD能更精确地匹配分布,解决了数据依赖和存储成本问题。
2025-05-28 21:55:00
894
1
原创 数据库基础语法
sql(Structured Query Language 结构化查询语言)SQL语法use DataTableName; 命令用于选择数据库。set names utf8; 命令用于设置使用的字符集。SELECT * FROM Websites; 读取数据表的信息。上面的表包含五条记录(每一条对应一个网站信息)和5个列(id、name、url、alexa 和country)。重要的SQL命令SELECT - 从数据库中提取数据UPDATE - 更新数据库中的数据DELETE - 从
2023-03-14 21:25:11
1004
原创 java基础复习
java程序的架构包变量Java网络编程APIrequest response对象headers在console中下载文件、图片cookie 和 session数据结构与算法入门web前端基础HTML元素的结构引入方式javascriptSpring Webmavenjava 注释(Annotation)Spring Request 拦截器(HandlerInterceptor)Spring Data CRUD,类似于数据库java程序的架构包变量Java网络编程APIrequest response对象。
2023-01-09 22:52:47
725
3
原创 python浅浅入个门(主要是一些注意事项)
print("mmmmm")//不可带分号这样就可以运行了第一行运行一行,慎重换行 用\n 换行/转义符 用/和后面的一起打印可以区分 “” 和 ‘’命名方式类似java字母 数字 下划线_3可以用中文定义变量名啦,但是还是建议用单词哦 好好背单词秒杀计算器 1+2-3*4/52**3 (2的三次方)2**(1/2) 根号2import math函数库,计算..
2022-04-19 12:58:04
739
原创 part6 JavaScript BOM
BOM浏览器对象模型浏览器对象模型(Browser Object Model (BOM))尚无正式标准。Window对象所有 JavaScript 全局对象、函数以及变量均自动成为 window 对象的成员。全局变量是 window 对象的属性。全局函数是 window 对象的方法。甚至 HTML DOM 的 document 也是 window 对象的属性之一:window.document.getElementById("header");document.getElementById
2022-02-24 12:55:37
169
原创 part3 JavaScript对象(这个是认真的)
万物皆对象布尔型可以是一个对象。数字型可以是一个对象。字符串也可以是一个对象日期是一个对象数学和正则表达式也是对象数组是一个对象函数也可以是对象访问方法objectName.methodName()转换大小写var x=message.toUpperCase();var x=message.toLowerCase();创建对象使用 Object 定义并创建对象的实例。在 JavaScript 中,几乎所有的对象都是 Object 类型的实例,它们都会从
2022-02-22 22:40:43
166
原创 part5 JavaScript DOM
DOMHTML DOM通过HTML DOM ,可以访问JavaScrip HTML 文档的所有的元素通过可编程的对象模型,JavaScript 获得了足够的能力来创建动态的 HTML。JavaScript 能够改变页面中的所有 HTML 元素JavaScript 能够改变页面中的所有 HTML 属性JavaScript 能够改变页面中的所有 CSS 样式JavaScript 能够对页面中的所有事件做出反应查找HTML 元素id查找var x=document.getElemen
2022-02-22 21:32:19
191
原创 part4 JavaScript类
JavaScript类(class)class ClassName { constructor() { ... }//类的狗在函数,用于初始化一个由class创建的对象}class Runoob { constructor(name, url) { this.name = name; this.url = url; }}使用类new关键字来创建对象class Runoob { constructor(name, url) { this.name = n
2022-02-22 15:23:31
430
原创 part2 JavaScript函数
函数定义一个函数定义方式一绝对值函数function abs(x){ if(x>=0){ return x; }else{ return -x;//return 代表函数结束 }}定义方式二var abs = function(x){ if(x>=0){ return x; }else{ return -x;//return 代表函数结束 }}functi
2022-02-22 15:03:29
123
原创 part3 JavaScript对象
万物皆对象布尔型可以是一个对象。数字型可以是一个对象。字符串也可以是一个对象日期是一个对象数学和正则表达式也是对象数组是一个对象函数也可以是对象访问方法objectName.methodName()转换大小写var x=message.toUpperCase();var x=message.toLowerCase();创建对象使用 Object 定义并创建对象的实例。在 JavaScript 中,几乎所有的对象都是 Object 类型的实例,它们都会从
2022-02-09 11:51:08
480
原创 part2 JavaScript函数
函数定义一个函数定义方式一绝对值函数function abs(x){ if(x>=0){ return x; }else{ return -x;//return 代表函数结束 }}定义方式二var abs = function(x){ if(x>=0){ return x; }else{ return -x;//return 代表函数结束 }}functi
2022-02-08 12:35:58
496
原创 part1 JavaScript简介
简介HTML 定义了网页的内容CSS 描述了网页的布局JavaScript 控制了网页的行为JS是脚本语言是一种轻量级的编程语言是可插入HTML页面的编程代码插入HTML页面后可由所有的现代浏览器执行直接写入html输出流只能在 HTML 输出中使用 document.write。如果您在文档加载后使用该方法,会覆盖整个文档。<script>document.write("<h1>这是一个标题</h1>");document.write("
2022-02-07 19:34:51
584
原创 part3 :页面布局
CSS连接链接样式a:link - 正常,未访问过的链接a:visited - 用户已访问过的链接a:hover - 当用户鼠标放在链接上时a:active - 链接被点击的那一刻a:link {color:#000000;} /* 未访问链接*/a:visited {color:#00FF00;} /* 已访问链接 */a:hover {color:#FF00FF;} /* 鼠标移动到链接上 */a:active {color:#0000FF;} /* 鼠标点击时 *
2022-02-05 12:19:24
165
原创 part2:CSS美化页面元素
美化网页元素有效的传递网页信息美化网页、页面漂亮、才能吸引用户凸显页面的主题提高用户的体验CSS3字体使用字体,通过 font-family 属性来引用字体的名称 (myFirstFont):<style> @font-face{ font-family: myFirstFont; src: url(sansation_light.woff);} div{ font-family:myFirstFont;}</style>
2022-01-28 22:03:39
178
原创 part1 :css选择器
HTML+CSS+JavaScrip[没看这个,但是写完之后发现这个好全]((8条消息) CSS入门学习笔记+案例_itboy-CSDN博客)什么是CSS学习方法CSS是什么CSS怎么入门CSS选择器(重点)美化网页(文字,阴影,超链接、列表…)盒子模型浮动定位网页动画(特效)什么是CSSCascading Style Sheet 层叠级联样式表CSS:表现(美化网页)字体,颜色,[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7JbsQcx
2022-01-27 12:05:22
1025
原创 初识HTML
初识HTMLHTML (Hyper Text Markup Language 超文本标记链接)超文本包括:文字、图片、音频、视频、动画等W3CWorld Wide Web Consortium(万维网联盟)W3C标准结构标准化(HTML、XML)表现标准语言(CSS)行为标准(DOM、ECMAScript)<!DOCTYPE html><!--告诉浏览器使用的规则 --><html lang="en"><
2022-01-08 21:40:35
418
原创 GC(有..难)
借鉴【JAVA核心】Java GC机制详解_老莫的博客-CSDN博客_javagc[Java面试–垃圾回收机制(GC)_小刺猬喜歡獨角獸-CSDN博客_java垃圾回收机制面试题CMS垃圾收集器_云袭的专栏-CSDN博客_cmsparallelremarkenabled这篇很乱,期末周,工科背市场营销已经傻了,我不知道在写啥,主要可以看上面两篇,可以以第一篇为主,第二篇为辅第二篇的算法和详细一. 什么是GC如何及时的把不再使用的对象清除将内存释放出来,这就是GC要做的事。**JVM在进行GC时
2022-01-07 19:49:27
272
原创 GC(未完待续)
借鉴【JAVA核心】Java GC机制详解_老莫的博客-CSDN博客_javagc[Java面试–垃圾回收机制(GC)_小刺猬喜歡獨角獸-CSDN博客_java垃圾回收机制面试题这篇很乱,期末周,工科背市场营销已经傻了,我不知道在写啥,主要可以看上面两篇,可以以第一篇为学习主线,第二篇为辅第二篇的算法很详细什么是GC如何及时的把不再使用的对象清除将内存释放出来,这就是GC要做的事。JVM在进行GC时,并不是对这三个区域统一回收。 大部分时候,回收都是新生代GC的作用区GC的对象需
2022-01-07 18:59:06
435
原创 初识JVM(图片重新上传来啦)
JVM探究这是一篇有很多外链的笔记(可以按这个学习JVM,有一些概念比较难理解,查找了比较全面的介绍,可以多看几遍)对JVM的理解 Java8虚拟机和之前的变化更新什么是OOM,什么是栈溢出StackOverFloeError?怎么分析?JVM的常用调用参数有那些内存快照如何抓取?怎么分析Dump文件,JVM,类加载器[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iEBbgnjR-1641134872623)(https://tse1-mm.cn.bin
2022-01-02 22:48:23
598
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅