自回归任务是什么？在哪里会用到呢？

最新推荐文章于 2024-05-22 14:31:11 发布

文三路张同学

最新推荐文章于 2024-05-22 14:31:11 发布

阅读量680

点赞数

分类专栏：其他文章标签：回归机器学习深度学习

本文链接：https://blog.csdn.net/qq_36160277/article/details/127162845

版权

其他同时被 2 个专栏收录

26 篇文章 0 订阅

订阅专栏

论文

20 篇文章 3 订阅

订阅专栏

一、自回归任务是什么?

我这里直接引用什么是自回归语言模型的解释， from https://blog.csdn.net/qq_42346574/article/details/114991254

一、自回归语言模型
听到自回归语言模型（Autoregressive LM）这个词，我们知道一般的语言模型都是从左到右计算某个词出现的概率，但是当我们做完型填空或者阅读理解这一类NLP任务的时候词的上下文信息都是需要考虑的，而这个时候只考虑了该词的上文信息而没有考虑到下文信息。所以，反向的语言模型出现了，就是从右到左计算某个词出现的概率，这一类语言模型称之为自回归语言模型。像坚持只用单向Transformer的GPT就是典型的自回归语言模型，也有像ELMo那种拼接两个上文和下文LSTM的变形自回归语言模型。

二、自编码语言模型
自编码语言模型（Autoencoder LM）区别于上一节所述，自回归语言模型是根据上文或者下文来预测后一个单词。那不妨换个思路，我把句子中随机一个单词用[mask]替换掉，是不是就能同时根据该单词的上下文来预测该单词。我们都知道Bert在预训练阶段使用[mask]标记对句子中15%的单词进行随机屏蔽，然后根据被mask单词的上下文来预测该单词，这就是自编码语言模型的典型应用。

三、两种模型的优缺点对比
自回归语言模型没能自然的同时获取单词的上下文信息（ELMo把两个方向的LSTM做concat是一个很好的尝试，但是效果并不是太好），而自编码语言模型能很自然的把上下文信息融合到模型中（Bert中的每个Transformer都能看到整句话的所有单词，等价于双向语言模型），但自编码语言模型也有其缺点，就是在Fine-tune阶段，模型是看不到[mask]标记的，所以这就会带来一定的误差。XLNet将二者的上述优缺点做了一个完美的结合，在自回归语言模型中自然地引入上下文信息，并且解决自编码语言模型两阶段保持一致的问题。

二、自回归模型在哪里有提及呢？

bengio在ICLR 2022中发表的文章 shared global workspace中就举例了自回归模型，用来解释这篇文章中使用workspace的场景。

The shared workspace is updated across different computational stages i.e., different time-steps in recurrent architecture and different layers in the case of Transformers. At each computational stage t, different specialists compete for writing in the shared workspace, but all specialists can read from the current state of the workspace.
In the case of an autoregressive task, we can restrict the information sharing to previous positions and keep a separate version of the workspace for each position.