bert蒸馏

最新推荐文章于 2023-03-14 18:00:00 发布

weixin_42001089

最新推荐文章于 2023-03-14 18:00:00 发布

阅读量576

点赞数

分类专栏：调研

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42001089/article/details/109893013

版权

调研专栏收录该内容

16 篇文章 2 订阅

订阅专栏

交互/表示模型

交互模型：两句话拼接成一句话，缺点就是长度弄不了太长，线上性能也压力大，优点就是两句话交互编码更加充分

表示模型：两句话分别进bert模型，所以是双塔模型，优点就是单句长度可以更长，线上也可以做到更好，因为其中一个bert边的向量可以保存，用的时候直接取。缺点就是两句话交互性其实比较弱，都是单独编码，只在最后一层取两个向量计算相似性。一个可以稍微缓解这种交互性的方案就是Poly-encoder,比如两个Bert最后输出的hidden_size是768，那么可以将其分成12个头head，然后做一个attention。

蒸馏

（1）交互模型蒸馏（主要就是减少层数）：

比如12->6,但是可以用一个更大的teacher 模型，如24->6，其实是比12->6得到的6层模型更好

还可以使用助教的方式即假如我们当前的任务时想从12层蒸馏到3层，那么其实

12->6->3要比12->3要好

（2）表示模型蒸馏（主要就是减少维度）：

比如768->128

主要是设计了一个pairewise loss即

loss(teacher(si-sj)-student(si-sj))

关于交互模型蒸馏：有种非对称蒸馏和以及其多阶段蒸馏

weixin_42001089

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
bert蒸馏

交互/表示模型交互模型：两句话拼接成一句话，缺点就是长度弄不了太长，线上性能也压力大，优点就是两句话交互编码更加充分表示模型：两句话分别进bert模型，所以是双塔模型，优点就是单句长度可以更长，线上也可以做到更好，因为其中一个bert边的向量可以保存，用的时候直接取。缺点就是两句话交互性其实比较弱，都是单独编码，只在最后一层取两个向量计算相似性。一个可以稍微缓解这种交互性的方案就是Poly-encoder,比如两个Bert最后输出的hidden_size是768，那么可以将其分成12个头head，
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。