seq2seq模型_Bart: Seq2Seq预训练模型

Bart是seq2seq结构的预训练模型,它在Encoder中处理损坏的句子,并在Decoder中进行恢复。相比于Bert和GPT,Bart的数据处理方式更加多样化,包括Mask、删除、顺序颠倒等,这使其在生成任务上表现出色,如在GLUE、Summarization和Abstractive QA数据集上取得优秀结果。
摘要由CSDN通过智能技术生成

文章来源于微信公众号:雨石季

原文链接:请点击

文章仅用于学习交流,如有侵权请联系删除

Overall

Transformer最早出来是为了解决机器翻译问题,因而Transformer模型分为两部分,Encoder和Decoder。Bert模型使用了Encoder部分,而GPT模型使用了Decoder部分,分别得到了很好的预训练模型。

而本文所解说的Bart,则返本溯源,重新拾起了Encoder-Decoder并用的结构,即seq2seq结构

Bart预训练模式

Bert,GPT和Bart的对比如下,可以看到,Bart是在Encoder中输入被损坏的句子,然后在Decoder中去还原。这样做的好处在于相对于Bert中单一的数据损坏方式,Bart更灵活。

ba4eb19963fab80a9198fd89a4f02d7a.png

Bart的数据处理方式

在Bert中,数据是按照15%的概率采样出来替换成特殊标记[MASK],当然,里面还有一个8:1:1的分配,在这里就不细说了,感兴趣可以去Bert那一篇细看。

而在Bart中,数据的处理就多种多样了。如下,可以是类似Bert的Mask方式,可以是删除,可以是颠倒顺序,可以是多个词语替换为一个[MASK]。

687a2abacbcb34c35ff4af5af3c53ebe.png

其中,词语删除和多个词语替换为一个[MASK]等方式会改变句子的长度,这点是Bert做不到的。

这样的数据复原方式,使得Bart会在生成问题上很有优势,实验也表明了这点,另外,Bart可以在判别任务上也达到和Roberta相近的结果。

实验

在GLUE数据集上的结果如下,Bart可以达到和Roberta相近的结果。

f8c3a616819a07774b3855879ccbc18e.png

在Summarization数据集上的结果如下:

e003961a054dd559467215b0125ecfee.png

在Abstractive QA上的结果如下:

25686624b505d41c51ebe96bd3ac4280.png

可以看到,Bart这种方式在生成问题上效果很好。

参考文献

  • [1]. Lewis, Mike, et al. "Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension." arXiv preprint arXiv:1910.13461 (2019).

9f296377cc6bd376e57b1c029cba56f6.png

「华来知识」成立于2017年,孵化于清华大学智能技术与系统国家重点实验室,是一家技术领先的人工智能企业。公司专注于提供新一代人工智能人机交互解决方案,利用自身技术为企业打造由人工智能驱动的知识体系,借此改善人类生活。华来科技将持续为企业客户提供优质服务,助力企业在专业领域的人工智能应用,提供完善可靠高效的产品解决方案。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值