porphet论文_ProphetNet 阅读笔记

最新推荐文章于 2024-04-16 09:42:51 发布

weixin_39725756

最新推荐文章于 2024-04-16 09:42:51 发布

阅读量220

点赞数

文章标签： porphet论文

本文链接：https://blog.csdn.net/weixin_39725756/article/details/111844578

版权

ProphetNet是为了解决基于AR模型的长期依赖关系捕捉不足问题，通过引入future n-gram prediction和n-stream self-attention机制，实现同时预测多个未来token，防止过拟合。它在预训练中采用去噪自编码任务，并在文本摘要和问题生成任务上展现出优越性能。

摘要由CSDN通过智能技术生成

解决的问题：

基于AR的模型可能更倾向于关注最新的token，而不是为下一个token预测捕获长期依赖关系。原因如下：(a)局部相关性(例如二元组合)通常比长期依赖性强。 (b)teacher forcing，模型着重于每个时间步的下一步预测，对未来的token planning & modeling 没有明显偏向性。最终会导致：局部token的组合会过拟合的，但是全局连贯性和长期依存关系却不足，在inference的过程中，生成过程倾向于保持局部连贯性，但缺乏有意义的全局结构，尤其是在使用beam search这一类的贪婪搜索时更为严重

解决方案：

新的序列到序列的预训练模型ProphetNet，它引入了一种新颖的自我监督目标函数，即future n-gram prediction 和 n-stream self-attention 机制；在当前时刻，基于之前的context，同时预测接下来的n个词条；防止过拟合，为长期依赖做打算

RELATED WORK：

自回归语言模型(Autoregressive LM)

在ELMO／BERT出来之前，大家通常讲的语言模型其实是根据上文内容预测下一个可能跟随的单词，就是常说的自左向右的语言模型任务，或者反过来也行，就是根据下文预测前面的单词，这种类型的LM被称为自回归语言模型。GPT 就是典型的自回归语言模型。ELMO尽管看上去利用了上文，也利用了下文，但是本质上仍然是自回归LM

自回归语言模型有优点有缺点，缺点

最低0.47元/天解锁文章

weixin_39725756

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
porphet论文_ProphetNet 阅读笔记

解决的问题：基于AR的模型可能更倾向于关注最新的token，而不是为下一个token预测捕获长期依赖关系。原因如下：(a)局部相关性(例如二元组合)通常比长期依赖性强。 (b)teacher forcing，模型着重于每个时间步的下一步预测，对未来的token planning & modeling 没有明显偏向性。最终会导致：局部token的组合会过拟合的，但是全局连贯性和长期依存关系...
复制链接

扫一扫