XLNet 是基于 BERT 的优缺点,提出的一种泛化自回归预训练方法。
--Tow-steam self-attention
Bert的优点:
- 可以学习上下文信息
- long-term depandency
Bert的缺点:
- 缺乏生成能力,本质上是DAV
- 测试数据有【mask】
- 针对【mask】预测时候没有考虑相关性
自回归(Auto Regressive)语言模型
目标函数的意义
- Bert:BERT是去噪(denoising)自编码的方法。BERT会随机挑选15%的Token变成[MASK]得到带噪声版本的x^。假设被Mask的原始值为x¯,那么BERT希望尽量根据上下文恢复(猜测)出原始值