精度更高的神经网络:通常参数更多,时延更高
知识蒸馏方法可以分为基于目标蒸馏(也称为Soft-target蒸馏或Logits方法蒸馏)和基于特征蒸馏。
大模型不方便部署到服务器中,常见的瓶颈如下:
-
- 推断速度慢
- 对部署资源要求高(内存,显存等)。在部署时,我们对延迟以及计算资源都有着严格的限制。
模型压缩:在保证模型性能的情况下减少模型的参数量。
一个模型的参数量基本决定了其所能捕获到的数据内的知识的量。
模型的参数量和所能捕获到的知识量并非呈现稳定的线性关系,而是接近边际收益逐渐减少的一种增长曲线。
熵越高,分布越乱。
一个函数越平滑,说明其函数值变化小。
ground truth:真实标签
交叉熵损失函数(CrossEntropy Loss):是分类问题中常用的一种损失函数,一般使用交叉熵作为损失函数时,模型的结尾总是会跟一个softmax函数。
交叉熵:主要用于度量用于两个概率分布的差异性。
交叉熵相关知识:信息是用来消除随机不确定的东西。信息量的大小与信息发生的概率成反比。
信息量大小:交叉熵损失函数原理详解_Cigar丶的博客-CSDN博客_交叉熵损失函数
交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度,在机器学习中就表示为真实概率分布与预测概率分布之间的差异。交叉熵的值越小,模型预测效果就越好。
交叉熵在分类问题中常常与softmax是标配,softmax将输出的结果进行处理,使其多个分类的预测值和为1,再通过交叉熵来计算损失。