算法面试之XLNet
概述
采用AR模型替代AE模型,解决mask带来的负面影响
排列语言模型,该模型不再对传统的AR模型的序列的值按顺序进行建模,而是最大化所有可能的序列的排列组合顺序的期望对数似然
双流注意力机制
to predict the token x_t, the model should only see the position of x_t, not the content of x_t
假如我们有两个序列ABCD与ABDC,这两个序列的排列组合的结果都是一样的。直接用标准的Transformer来建模PLM,会出现没有目标(target)位置信息的问题。即在打乱顺序之后,我们并不知道下一个要预测的词是一个什么词,这将导致用相同上文预测不同目标的概率是相同的。