模型训练损失值不变_Bert与模型蒸馏: PKD和DistillBert

最新推荐文章于 2023-01-10 22:22:44 发布

VIP文章 weixin_39906878

最新推荐文章于 2023-01-10 22:22:44 发布

阅读量747

点赞数

文章标签：模型训练损失值不变

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39906878/article/details/111291923

版权

最近要开始使用Transformer去做一些事情了，特地把与此相关的知识点记录下来，构建相关的、完整的知识结构体系，

以下是要写的文章，本文是这个系列的第五篇：

Transformer:Attention集大成者
GPT-1 & 2: 预训练+微调带来的奇迹
Bert: 双向预训练+微调
Bert与模型压缩
- Bert与模型蒸馏：PKD和DistillBert(本篇)
- ALBert(待续)
- MobileBert(待续)
- 更多待续
Bert与AutoML (待续)
线性Transformer (待续)
Bert变种
- Roberta: Bert调优
- Reformer (待续)
- Longformer (待续)
- T5 (待续)
- 更多待续
GPT-3
更多待续

Overall

Bert模型虽然很火，但是模型太大，在device上基本不可用，要想更好的使用的话需要让模型变小。

而目前模型变小的技术大概有四种：

模型量化：即把float值变为int8，可以直接将模型降为原来的四分之一。速度也会有提高。
矩阵分解：大矩阵分解为小矩阵的乘积去拟合，可以显著降低size。

最低0.47元/天解锁文章

weixin_39906878

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
模型训练损失值不变_Bert与模型蒸馏: PKD和DistillBert

最近要开始使用Transformer去做一些事情了，特地把与此相关的知识点记录下来，构建相关的、完整的知识结构体系，以下是要写的文章，本文是这个系列的第五篇：Transformer:Attention集大成者GPT-1 & 2: 预训练+微调带来的奇迹Bert: 双向预训练+微调Bert与模型压缩Bert与模型蒸馏：PKD和DistillBert(本篇)ALBert(待续)Mob...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。