自回归(AR)语言模型和自编码(autoencoding)模型--术语解读

在阅读论文时,我们经常会看到一些术语,这些术语可能比较难以理解。

比如自回归(Autoregressive,AR)语言模型自编码(autoencoding)模型等,这可能让不少人感到困惑。

自回归是时间序列分析或者信号处理领域喜欢用的一个术语,我们这里理解成语言模型就好了。一个句子的生成过程如下:首先根据概率分布生成第一个词,然后根据第一个词生成第二个词,然后根据前两个词生成第三个词了,以此类推,直到生成整个句子。

所谓的自编码器是一种无监督学习输入的特征的方法:我们用一个神经网络把输入(输入通常还会增加一些噪声)变成一个低维的特征,这就是编码部分。然后再用一个Decoder尝试把特征恢复成原始的信号。例如:可以把Bert看成一种AutoEncoder,它通过Mask改变了部分Token,然后试图通过其上下文的其它Token来恢复这些被Mask的Token。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值