Distilling the Knowledge in a Neural Network

最新推荐文章于 2024-07-19 16:50:04 发布

糯米~团子

最新推荐文章于 2024-07-19 16:50:04 发布

阅读量140

点赞数

分类专栏：知识蒸馏文章标签：深度学习神经网络机器学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Goodlick/article/details/108315300

版权

知识蒸馏专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

Structure
Experiment
Reference

Structure

在这里插入图片描述
Softmax 前：logits（ $z_i$ ），后：probability（ $q_i$ ）
$q_i=\frac {exp(z_i/T)}{\sum_jexp(z_j/T)}$

交叉熵梯度函数：
Fun. 1
Fun. 2
Fun. 1泰勒展开得Fun. 2
若：logits 均值为0，及 $\sum_jz_j=\sum_jv_j=0$
则得：在这里插入图片描述

T >= 1
T很大时：求 $\frac{1}{2(z_i-v_i)^2}$ 最小
T小时：更不关注于负logits（算噪声），但负logits中可能包含有用信息
原文：在这里插入图片描述

Experiment

Subject

MNIST 和语音识别

Structure

MNIST

单Teacher: 两层FC，每层1200个神经元，后面加Dropout。错67个
单Student: 两层FC，每层800个神经元，无Dropout。错146个
合：错74个。T=20

有意思的东西：
1、Student训练时去掉“3”的数据集，错206，其中有133个是对“3”的辨识错误（测试集中“3”有1010个）。原因是bias过低，增加bias，错109个，其中14个是“3”。
2、训练集只有“7”、“8”时，错误率47.3%，bias降低优化，错误率降至13.2%。

问题：手动调节bias有什么意义？有什么办法可以自动调节bias吗，若有，可以解决数据丢失问题

语音识别

暂时用不到，下次整理

Reference

参考博客1
参考博客2
论文

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Distilling the Knowledge in a Neural Network

文章目录StructureExperimentSubjectStructureMNIST语音识别ReferenceStructureSoftmax 前：logits（ziz_izi），后：probability（qiq_iqi）qi=exp(zi/T)∑jexp(zj/T)q_i=\frac {exp(z_i/T)}{\sum_jexp(z_j/T)}qi=∑jexp(zj/T)exp(zi/T)交叉熵梯度函数：Fun. 1泰勒展开得Fun. 2若：logits 均值为0，及
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。