NLP/AI面试题总结
NLP/AI面试题总结:
https://zhuanlan.zhihu.com/p/57153934
ID3、C4.5、CART、RF、boosting、Adaboost、GBDT、xgboost模型:https://zhuanlan.zhihu.com/p/34534004
BERT模型压缩有哪些方法?
nlp中的预训练语言模型总结(单向模型、BERT系列模型、XLNet)
https://zhuanlan.zhihu.com/p/76912493
NLP算法面试必备!史上最全!PTMs:NLP预训练模型的全面总结
https://zhuanlan.zhihu.com/p/115014536
里面有涉及到模型压缩的部分。
BERT变种
原文链接:https://blog.csdn.net/qq_39006282/article/details/107251957
1)word embedding太大
不需要花哨的解释,word embedding设置多大见仁见智,适当就好。ALBERT试验发现原先的300确实没必要,可以适当缩减,对网络没影响。
但尴尬的是在SST-2数据集上768比256尺寸效果好得有点多,这就有点打脸了。
2)参数共享
在Bert里encoder可以共享层参数,也可以共享attention。
ALBERT选择全都共享。自身比较