知识蒸馏学习知识

最新推荐文章于 2024-03-05 10:30:56 发布

一个程序圆

最新推荐文章于 2024-03-05 10:30:56 发布

阅读量339

点赞数

文章标签：学习人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41288011/article/details/127597161

版权

精度更高的神经网络：通常参数更多，时延更高

知识蒸馏方法可以分为基于目标蒸馏（也称为Soft-target蒸馏或Logits方法蒸馏）和基于特征蒸馏。

大模型不方便部署到服务器中，常见的瓶颈如下:

- 推断速度慢
- 对部署资源要求高(内存，显存等)。在部署时，我们对延迟以及计算资源都有着严格的限制。

模型压缩：在保证模型性能的情况下减少模型的参数量。

一个模型的参数量基本决定了其所能捕获到的数据内的知识的量。

模型的参数量和所能捕获到的知识量并非呈现稳定的线性关系，而是接近边际收益逐渐减少的一种增长曲线。

熵越高，分布越乱。

一个函数越平滑，说明其函数值变化小。

ground truth：真实标签

交叉熵损失函数(CrossEntropy Loss)：是分类问题中常用的一种损失函数，一般使用交叉熵作为损失函数时，模型的结尾总是会跟一个softmax函数。

交叉熵：主要用于度量用于两个概率分布的差异性。

交叉熵相关知识：信息是用来消除随机不确定的东西。信息量的大小与信息发生的概率成反比。

信息量大小：交叉熵损失函数原理详解_Cigar丶的博客-CSDN博客_交叉熵损失函数

交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度，在机器学习中就表示为真实概率分布与预测概率分布之间的差异。交叉熵的值越小，模型预测效果就越好。

交叉熵在分类问题中常常与softmax是标配，softmax将输出的结果进行处理，使其多个分类的预测值和为1，再通过交叉熵来计算损失。

一个程序圆

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
知识蒸馏学习知识

知识蒸馏
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。