大模型知识蒸馏核心技术（3）—— 中间层知识迁移

谷哥的小弟

于 2025-03-10 00:30:00 发布

阅读量1.9k

点赞数 29

分类专栏： AI新时代文章标签：知识蒸馏大模型学生模型蒸馏教师模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lfdfhl/article/details/146050653

版权

版权声明

本文原创作者：谷哥的小弟
作者博客地址：http://blog.csdn.net/lfdfhl

在这里插入图片描述

特征匹配（Feature Matching）

特征匹配是中间层知识迁移的一种重要方式，通过对齐师生模型的中间层特征来实现知识的传递。具体来说，教师模型和学生模型的中间层特征图或激活值被提取出来，然后通过某种损失函数来衡量它们之间的差异，并进行优化。常用的损失函数包括L2损失和余弦相似度等。

在这里插入图片描述

特征匹配的优点是可以直接利用教师模型的中间层特征来指导学生模型的学习，使学生模型能够学习到更丰富的特征表示。然而，这种方法也存在一些挑战，例如教师模型和学生模型的中间层特征维度可能不同，需要进行特征对齐。

注意力转移（Attention Transfer）

注意力转移是另一种中间层知识迁移的方法，通过迁移教师模型的注意力权重或矩阵，增强学生模型对重要特征的捕捉能力。注意力机制可以帮助模型更好地关注输入数据中的关键部分，从而提高模型的性能。

注意力图的生成：对于一个给定的卷积神经网

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

谷哥的小弟 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。