在阅读论文时,我们经常会看到一些术语,这些术语可能比较难以理解。
比如自回归(Autoregressive,AR)语言模型和自编码(autoencoding)模型等,这可能让不少人感到困惑。
自回归是时间序列分析或者信号处理领域喜欢用的一个术语,我们这里理解成语言模型就好了。一个句子的生成过程如下:首先根据概率分布生成第一个词,然后根据第一个词生成第二个词,然后根据前两个词生成第三个词了,以此类推,直到生成整个句子。
所谓的自编码器是一种无监督学习输入的特征的方法:我们用一个神经网络把输入(输入通常还会增加一些噪声)变成一个低维的特征,这就是编码部分。然后再用一个Decoder尝试把特征恢复成原始的信号。例如:可以把Bert看成一种AutoEncoder,它通过Mask改变了部分Token,然后试图通过其上下文的其它Token来恢复这些被Mask的Token。