模型压缩
文章平均质量分 95
大模型领域模型压缩方向论文阅读笔记
小白的Soda
厚德弘毅,求是笃行。
展开
-
根据学生学习水平量身定制指导以促进知识蒸馏的效果
本文主要介绍了一种新的知识蒸馏方法——Learning Good Teacher Matters (LGTM),该方法通过引入蒸馏影响来确定每个训练样本对学生模型泛化能力的影响,从而让教师模型在训练过程中更加注重那些对学生模型泛化有益的样本。实验证明,LGTM方法在GLUE数据集中的6个文本分类任务中比其他10种常见的知识蒸馏方法表现更好。原创 2023-08-23 09:28:10 · 272 阅读 · 0 评论 -
通用语言模型蒸馏-GLMD
总览全文、归纳总结总结文中的创新点、关键点、启发点等重要信息。原创 2023-08-23 09:12:13 · 844 阅读 · 0 评论 -
知识继承概述
尽管在探索各种预训练技术和模型架构方面做出了巨大努力,研究人员发现,简单地扩大模型容量、数据大小和训练时间可以显著提升模型性能,然而更多的模型参数也意味着更昂贵的计算资源、训练成本。蒸馏指的是把不纯净的水加热变成蒸汽,蒸汽冷凝之后变成冷凝水。知识蒸馏也是把有杂质的东西,大的东西变成小的东西,纯的东西。把一个大的模型(教师模型)里面的知识给萃取蒸馏出来浓缩到一个小的学生模型上。教师网络最终输出Soften Label(这里主要针对分类问题而言,相当于老师直接给答案,学生由答案反推问题的求解步骤)原创 2023-08-19 12:05:56 · 530 阅读 · 0 评论