论文笔记| BART:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation

在这里插入图片描述


作者:景
单位:燕山大学


论文来源
代码地址

前言

  先说说通常意义上的预训练模型,以BERT为例,它采用大规模预料对Transformer编码器进行预训练,保存编码器参数后接下游任务,针对不同的下游任务采取不同的微调措施,例如接分类器、接解码器等。这么做的好处在于“对症下药”,但实则可以看做是妥协的产物——因为在谷歌刚提出BERT的时候,并没有针对“只编不解”这个问题的良好对策,bert在编码器堆叠了12层,这12层模型的参数经过了大规模语料的千锤百炼,对文本特征的捕获能力是极强的,但是其下游任务(这里特指需要解码的生成式任务)却只是经过了特定的小规模语料的训练,编码器和解码器对文本特征的捕获能力不一致,存在一种虎头蛇尾的现象。同时,bert的预训练任务——完形填空,也不一定适配下游的所有任务。

  那么,有没有一种预训练方法,能够涵盖编码器、解码器,让编解码器拥有同等捕获文本特征的能力呢?假设有的话,不难想象,它在解决序列到序列这一类问题的时候,应当超越单纯的自编码模型和自回归模型。

  • 7
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值