fastbert bert蒸馏

xiao___qiao

于 2021-05-17 11:36:16 发布

阅读量341

点赞数

分类专栏： NLP 文章标签： nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37074299/article/details/116920588

版权

NLP 专栏收录该内容

12 篇文章 2 订阅

订阅专栏

目录

1 目的和思想
2 模型原理
- 2.1 backbone
- 2.2 branch
3 知识点
- 3.1 self-distillation
- 3.2 Adaptive Inference
4 源码

1 目的和思想

fastbert 模型的目的：用小模型替代大模型
fastbert 的整体思想：自蒸馏、自适应推理
模型出自论文: FastBERT: a Self-distilling BERT with Adaptive Inference Time

2 模型原理

模型训练：

pre-training 与 bert 预训练一样（ T 和 S 分类器都 freeze）
fine-tuning （T 分类器进行训练）
self-distillation（S 分类器进行训练）

在这里插入图片描述

2.1 backbone

主骨架为原来的bert一样，把softmax叫作teacher classifier

2.2 branch

分支，就是在每层的transformer之后增加一个student classifier，当某层 student 分出的概率map，计算其熵，如果熵低于设置的 speed 值，就代表不确定性较低，就不在把这个数据输到下一个transformer了

loss 利用teacher和student 分类器分出的概率map，计算 KL 散度来表示

3 知识点

fastbert主要有两点创新：

self-distillation 自蒸馏
Adaptive Inference 自适应推理

3.1 self-distillation

其他的蒸馏是需要设计一个新的 student model，所以 T 和 S 之间的 ACC 都会降低很多来减小模型
在这里插入图片描述
本文中提出的自蒸馏不仅减小了模型计算，还保证了 ACC ，而这个的模型设计就只是在每层transformer后加一个student classifier

3.2 Adaptive Inference

对于每一个Transformer层，我们需要采用一个评价指标来评价这一层的推理结果是否可信座作为输出，而不需要再到下一层进行推理。本文中这个指标成为不确定度Uncertainty。对于给定的输入句子，student分类器输出的不确定度采用的归一化香农熵进行计算
在这里插入图片描述

4 源码

FastBERT-master

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
fastbert bert蒸馏

目录1 目的和思想2 模型原理2.1 backbone2.2 branch3 知识点3.1 self-distillation3.2 Adaptive Inference4 源码1 目的和思想fastbert 模型的目的：用小模型替代大模型fastbert 的整体思想：自蒸馏、自适应推理模型出自论文: FastBERT: a Self-distilling BERT with Adaptive Inference Time2 模型原理模型训练：pre-training 与 bert 预训练一
复制链接

扫一扫

专栏目录

xiao___qiao CSDN认证博客专家 CSDN认证企业博客

码龄7年

31: 原创

16万+: 周排名

86万+: 总排名

1万+: 访问

: 等级

330: 积分

4: 粉丝

11: 获赞

16: 评论

54: 收藏

私信

关注

热门文章

分类专栏

java
深度学习 1篇
graph 5篇
NLP 12篇
常见问题 1篇
pytorch 9篇
机器学习 1篇

最新评论

GraphSage 图向量
自在飞花69: 请问这个模型可以通过python进行引用吗？求代码求论文名称。研究所用，十分感谢
RNN
不吃西红柿丶: 写得挺好，要持续稳定输出哦~
pytorch 安装
不吃西红柿丶: 非常有用，感谢大佬的整理，期待后续大作
tensorboard 使用
不吃西红柿丶: 大佬的文章让我受益匪浅，如痴如醉，以后的日子还希望能够得到大佬的谆谆指指点点!
plt、nn 使用
不吃西红柿丶: 大佬的文章让我受益匪浅，如痴如醉，以后的日子还希望能够得到大佬的谆谆指指点点!

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。