腾讯一面：BERT模型压缩，BERT变种，数据分桶

最新推荐文章于 2024-05-16 12:32:15 发布

DecafTea

最新推荐文章于 2024-05-16 12:32:15 发布

阅读量488

点赞数

分类专栏： NLP 面试查缺补漏

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/decaftea/article/details/115115295

版权

NLP/AI面试题总结

NLP/AI面试题总结：
https://zhuanlan.zhihu.com/p/57153934
ID3、C4.5、CART、RF、boosting、Adaboost、GBDT、xgboost模型：https://zhuanlan.zhihu.com/p/34534004

BERT模型压缩有哪些方法？

nlp中的预训练语言模型总结(单向模型、BERT系列模型、XLNet)
https://zhuanlan.zhihu.com/p/76912493

NLP算法面试必备！史上最全！PTMs：NLP预训练模型的全面总结
https://zhuanlan.zhihu.com/p/115014536
在这里插入图片描述

里面有涉及到模型压缩的部分。

BERT变种

原文链接：https://blog.csdn.net/qq_39006282/article/details/107251957

1）word embedding太大
不需要花哨的解释，word embedding设置多大见仁见智，适当就好。ALBERT试验发现原先的300确实没必要，可以适当缩减，对网络没影响。
但尴尬的是在SST-2数据集上768比256尺寸效果好得有点多，这就有点打脸了。

2）参数共享
在Bert里encoder可以共享层参数，也可以共享attention。
ALBERT选择全都共享。自身比较

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。