问题1:Bert模型中,根号dk的作用
QK进行点击之后,值之间的方差会较大,也就是大小差距会较大;如果直接通过Softmax操作,会导致大的更大,小的更小;进行缩放,会使参数更平滑,训练效果更好。
问题2:Bert模型中多头的作用
多次attention综合的结果至少能够起到增强模型的作用,也可以类比CNN中同时使用多个卷积核的作用,直观上讲,多头的注意力有助于网络捕捉到更丰富的特征/信息。
文末免费送电子书:七月在线干货组最新 升级的《2021最新大厂AI面试题》免费送
问题3:BPE的了解
BPE与Wordpiece都是首先初始化一个小词表,再根据一定准则将不同的子词合并。词表由小变大
BPE与Wordpiece的最大区别在于,如何选择两个子词进行合并:BPE选择频数最高的相邻子词合并,而WordPiece选择能够提升语言模型概率最大的相邻子词加入词表。
问题4:mask策略和改进
从bert最开始的mask token 到后面ernie的 mask entity以及还有mask n-gram,动态mask等等。
问题5:Bert模型中激活函数GELU
GELU函数是RELU函数的变种,形式如下: