腾讯一面:BERT模型压缩,BERT变种,数据分桶

NLP/AI面试题总结

NLP/AI面试题总结:
https://zhuanlan.zhihu.com/p/57153934
ID3、C4.5、CART、RF、boosting、Adaboost、GBDT、xgboost模型:https://zhuanlan.zhihu.com/p/34534004

BERT模型压缩有哪些方法?

nlp中的预训练语言模型总结(单向模型、BERT系列模型、XLNet)
https://zhuanlan.zhihu.com/p/76912493

NLP算法面试必备!史上最全!PTMs:NLP预训练模型的全面总结
https://zhuanlan.zhihu.com/p/115014536
在这里插入图片描述

里面有涉及到模型压缩的部分。

BERT变种

原文链接:https://blog.csdn.net/qq_39006282/article/details/107251957

1)word embedding太大
不需要花哨的解释,word embedding设置多大见仁见智,适当就好。ALBERT试验发现原先的300确实没必要,可以适当缩减,对网络没影响。
但尴尬的是在SST-2数据集上768比256尺寸效果好得有点多,这就有点打脸了。

2)参数共享
在Bert里encoder可以共享层参数,也可以共享attention。
ALBERT选择全都共享。自身比较

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值