模型压缩之蒸馏

最新推荐文章于 2024-10-12 11:18:46 发布

访风景于崇阿

最新推荐文章于 2024-10-12 11:18:46 发布

阅读量164

点赞数

分类专栏：深度学习文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/starlight1231/article/details/128918276

版权

本文探讨了模型压缩中的教师-学生机制，重点在于如何通过KL散度和KLDivLoss来优化学生模型。除了传统的softmax损失计算外，蒸馏机制还能让学生模型从无监督样本中学习，有效增加数据量。同时解释了KL散度作为衡量概率分布差异的指标，其在模型训练中的作用。

摘要由CSDN通过智能技术生成

核心：Teacher-Student 机制
使用：1. Teacher 与 Student 的 softmax loss 求KL散度损失
2. 另一点很少有文章提到，利用蒸馏机制可以让Sutdent学习无监督的新样本，扩大数据量

KL散度

KL散度，又叫相对熵，用于衡量两个分布（离散分布和连续分布）之间的距离。

设p(x) 、q(x) 是离散随机变量的两个概率分布，则 p对q 的KL散度是:

KLDivLoss

class KLDivLoss(_Loss):
    __constants__ = ['reduction']
    def __init__(self, size_average=None, reduce=None, reduction='mean'):
        super(KLDivLoss, self).__init__(size_average, reduce, reduction)
    def forward(self, input, target):

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

访风景于崇阿

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

AI架构师必知必会系列：模型压缩与蒸馏

AI天才研究院

12-15

235

随着深度学习模型在各个领域的应用不断扩展，模型规模也不断增大。这导致了模型的计算开销和存储开销变得越来越大，对于部署在边缘设备上的模型，这种开销更是显著。因此，模型压缩和蒸馏等技术成为了研究热点。模型压缩主要包括权重压缩和结构压缩两种方法。权重压缩是指通过对模型权重进行压缩，减少模型的参数数量，从而减少模型的计算和存储开销。结构压缩是指通过对模型的结构进行压缩，减少模型的层数或神经元数量，从而减少模型的计算和存储开销。

模型训练的模型压缩：知识蒸馏与剪枝

AI天才研究院

01-02

513

随着深度学习技术的不断发展，深度学习模型在计算能力和性能方面取得了显著的进展。然而，这些模型的复杂性也带来了更高的计算成本和存储需求。因此，模型压缩成为了一个关键的研究方向。模型压缩的主要目标是将大型模型压缩为更小的模型，同时保持模型的性能和准确性。模型压缩可以分为两类：预训练时压缩和训练时压缩。预训练时压缩通常包括权重裁剪、权重稀疏化和知识蒸馏等方法。训练时压缩通常包括剪枝、剪梳等方法。在本文中，我们将重点关注知识蒸馏和剪枝两种方法。

参与评论您还未登录，请先登录后发表或查看评论

Relational knowledge distillation -基于关系建模的模型蒸馏

kebijuelun的博客

08-08

738

Paper name Relational Knowledge Distillation Paper Reading Note URL: https://arxiv.org/abs/1904.05068 TL;DR 提出了一种以模型输出的结构信息进行蒸馏的方式，对于metric learning、分类等任务有较大涨点效果 Introduction 当前的SOTA模型基本都需要较大的计算量和存储消耗，一个有希望的解决方向是基于知识蒸馏方式将一个大模型的知识迁移到小模型中两个问题：模型中的知识是什

模型蒸馏的数学基础：解密KL散度与温度参数

AI天才研究院

12-31

1274

1.背景介绍模型蒸馏是一种用于减少模型复杂性和提高模型泛化能力的技术，它通过在高温和低温两个阶段对模型进行训练，然后在低温下选择出一部分高质量的样本，来提高模型的准确性和稳定性。在这个过程中，KL散度和温度参数是两个非常重要的概念，它们决定了模型蒸馏的效果。本文将从数学角度深入探讨模型蒸馏的数学基础，揭示KL散度和温度参数的数学模型和计算方法，并通过具体代码实例进行说明。 2.核心概念与联系...

深度学习笔记（52）知识蒸馏

m0_37302966的博客

08-23

深度学习笔记（52）知识蒸馏

KL散度

qq_44089890的博客

04-29

9554

KL散度（Kullback-Leibler divergence），也称为相对熵（relative entropy），是用来衡量两个概率分布之间差异的一种指标。在机器学习中，KL散度常常用于度量两个概率分布之间的相似度或差异性。具体来说，假设我们有两个概率分布px和qx，其中px表示真实分布，qx表示模型预测的分布。DKLp∣∣q∑x∈Xpxlogqxpx其中，X是所有可能的取值的集合。可以看出，KL散度是px和qx。

识蒸馏十大关键概念详解:从教师-学生范式到模型压缩和重生网络

wwlsm_zql的博客

05-03

393

知识蒸馏(Knowledge Distillation)任务通常会使用以下术语和表述:

1-2+大规模预训练模型的压缩和蒸馏.pdf

03-18

常见的BERT模型压缩方法包括Layer-wise Knowledge Distillation、Shared Projection Matrices、Group-wise Quantization等。这些方法可以减少BERT模型的参数数量和计算复杂度，从而提高模型的部署效率。 Task-...

理解损失函数

u012409283的博客

09-22

876

常用损失函数： CE 交叉熵 MSE 均方差 KL散度 问题一：模型蒸馏，对logits拟合为什么用CE而不用MSE 之所以使用soft label而不是hard label进行蒸馏，是因为soft label中包含了较hard label更丰富的信息，即类内关系和类间关系都可以通过soft label进行体现。目前的大部分蒸馏loss的设计主要借鉴Hinton之前的"知识蒸馏"中的做法，即softmax + cross entropy，对logits进行蒸馏；还可以使用超参温度对softmax的输

交叉熵与相对熵(KL散度)

qq_43742590的博客

04-07

1384

一、熵二、相对熵(KL散度) P表示样本的真实分布，Q表示模型所预测的分布，那么KL散度就可以计算两个分布的差异，也就是Loss损失值。Q的分布越接近P（Q分布越拟合P），那么散度值越小，即损失值越小。有时会将KL散度称为KL距离，但它并不满足距离的性质：不对称；不满足三角不等式。三、交叉熵我们将KL散度公式进行变形：前一部分恰巧就是p的熵，等式的后一部分，就是交叉熵：在机器学习中，我们需要评估label和predicts之间的差距，使用KL散度刚刚好，由于KL散度中的前一部分

知识蒸馏（Knowledge Distillation）

热门推荐

AI Flash

06-04

18万+

1、Distilling the Knowledge in a Neural Network Hinton的文章"Distilling the Knowledge in a Neural Network"首次提出了知识蒸馏（暗知识提取）的概念，通过引入与教师网络（teacher network：复杂、但推理性能优越）相关的软目标（soft-target）作为total loss的一部分，以诱导学...

交叉熵和相对熵（KL散度）

暖树的博客

08-04

503

P表示样本的真实分布，Q表示模型所预测的分布，那么KL散度就可以计算两个分布的差异，也就是Loss损失值。Q的分布越接近P（Q分布越拟合P），那么散度值越小，即损失值越小。有时会将KL散度称为KL距离，但它并不满足距离的性质：不对称；不满足三角不等式。...

交叉熵、相对熵（KL散度）、JS散度和Wasserstein距离（推土机距离）

weixin_NineDays66

08-01

3463

https://zhuanlan.zhihu.com/p/74075915 目录：信息量熵相对熵（KL散度）交叉熵 JS散度推土机理论 Wasserstein距离 WGAN中对JS散度，KL散度和推土机距离的描述写在前面的总结： 1、目前分类损失函数为何多用交叉熵，而不是KL散度。首先损失函数的功能是通过样本来计算模型分布与目标分布间的差异，在分布差异计算中，K...

交叉熵、KL散度问题。

skyfengye的博客

07-25

1095

最近在研究GAN算法。这其中使用了KL散度等一些概念问题。在网上发现了一个很精彩的解释。目前分类损失函数为何多用交叉熵，而不是KL散度。首先损失函数的功能是通过样本来计算模型分布与目标分布间的差异，在分布差异计算中，KL散度是最合适的。但在实际中，某一事件的标签是已知不变的（例如我们设置猫的label为1，那么所有关于猫的样本都要标记为1），即目标分布的熵为常数。而根据下面KL公式可以看到...

关于KL散度的知识

wangxiaotan620的博客

07-31

879

原博客地址：https://blog.csdn.net/matrix_space/article/details/80550561 KL 散度是一个用来衡量两个概率分布的相似性的一个度量指标。我们知道，现实世界里的任何观察都可以看成表示成信息和数据，一般来说，我们无法获取数据的总体，我们只能拿到数据的部分样本，根据数据的部分样本，我们会对数据的整体做一个近似的估计，而数据整体本身有一个真实的分布...

（等待填坑）深度学习——蒸馏loss、蒸馏学习

s000da的博客

04-23

5619

提出问题参考博客 1. 知识蒸馏 2. 蒸馏

【深度学习】经典的深度学习模型-02 ImageNet夺冠之作: 神经网络AlexNet