论文笔记| BART：Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation

最新推荐文章于 2023-12-08 23:00:02 发布

期待成功

最新推荐文章于 2023-12-08 23:00:02 发布

阅读量2.4k

点赞数 7

分类专栏：自然语言处理笔记文章标签：人工智能机器学习深度学习 nlp 预训练模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011150266/article/details/117742695

版权

在这里插入图片描述

作者：景
单位：燕山大学

论文来源
 代码地址

前言

先说说通常意义上的预训练模型，以BERT为例，它采用大规模预料对Transformer编码器进行预训练，保存编码器参数后接下游任务，针对不同的下游任务采取不同的微调措施，例如接分类器、接解码器等。这么做的好处在于“对症下药”，但实则可以看做是妥协的产物——因为在谷歌刚提出BERT的时候，并没有针对“只编不解”这个问题的良好对策，bert在编码器堆叠了12层，这12层模型的参数经过了大规模语料的千锤百炼，对文本特征的捕获能力是极强的，但是其下游任务（这里特指需要解码的生成式任务）却只是经过了特定的小规模语料的训练，编码器和解码器对文本特征的捕获能力不一致，存在一种虎头蛇尾的现象。同时，bert的预训练任务——完形填空，也不一定适配下游的所有任务。

那么，有没有一种预训练方法，能够涵盖编码器、解码器，让编解码器拥有同等捕获文本特征的能力呢？假设有的话，不难想象，它在解决序列到序列这一类问题的时候，应当超越单纯的自编码模型和自回归模型。

最低0.47元/天解锁文章

关注

7
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
论文笔记| BART：Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation

作者：景单位：燕山大学论文来源代码地址前言先说说通常意义上的预训练模型，以BERT为例，它采用大规模预料对Transformer编码器进行预训练，保存编码器参数后接下游任务，针对不同的下游任务采取不同的微调措施，例如接分类器、接解码器等。这么做的好处在于“对症下药”，但实则可以看做是妥协的产物——因为在谷歌刚提出BERT的时候，并没有针对“只编不解”这个问题的良好对策，bert在编码器堆叠了12层，这12层模型的参数经过了大规模语料的千锤百炼，对文本特征的捕获能力是极强的，但是其下游任务..
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。