T5与BART的区别

26 篇文章 23 订阅

目录

1. 模型结构

1.1 T5 (Text-to-Text Transfer Transformer)模型结构

T5的特点

1.2. BART (Bidirectional and Auto-Regressive Transformers)模型结构

 BART的特点

2. 预训练任务

3. 生成方式


1. 模型结构

T5(Text-to-Text Transfer Transformer)和BART(Bidirectional and Auto-Regressive Transformers)都是基于Transformer的预训练模型,但在结构上有所不同。

T5采用了encoder-decoder结构,其中encoder和decoder都是使用自注意力机制的Transformer。T5将所有的NLP任务都视为文本到文本的转换问题,无论是分类、翻译还是摘要等任务,都是将输入文本转换为输出文本。

BART也采用了encoder-decoder结构,但与T5不同的是,BART在预训练阶段使用了类似于BERT的双向Transformer作为encoder,使用了类似于GPT的单向Transformer作为decoder。BART的预训练任务是序列到序列的恢复,即从被扰动的输入序列恢复出原始序列。

1.1 T5 (Text-to-Text Transfer Transformer)模型结构

T5是由Google在2019年提出的一个模型,其核心创新在于将所有的NLP任务都转化为文本生成任务,即输入和输出都是文本序列。T5模型结构基于Transformer模型,其核心是自注意力机制(Self-Attention Mechanism)。T5模型由编码器和解码器组成,每一部分都包含若干个Transformer层。

T5的特点
  • 将所有NLP任务视为文本到文本的转换问题,这使得模型可以在多个任务中共享参数,从而提高效率。
  • 采用了Causal Masking,即在解码过程中,只允许模型查看其之前的输出,而不能查看之后的输出,以保证生成的文本序列的连贯性。
1.2. BART (Bidirectional and Auto-Regressive Transformers)模型结构

BART是由Facebook在2019年提出的一个模型,其结构与标准的Transformer模型相同,包含一个编码器和一个解码器,每一部分都包含若干个Transformer层。

 BART的特点
  • BART在预训练阶段使用了一个新颖的目标函数,该函数结合了自编码(Auto-Encoding)和序列到序列(Seq2Seq)的优点。具体来说,BART会对输入文本进行某种形式的破坏(如随机删除一些词),然后训练模型去重建原始文本。
  • BART的编码器和解码器都使用了双向的自注意力机制,这使得模型可以同时捕捉到文本序列中的前向和后向依赖关系。
2. 预训练任务

T5的预训练任务是Causal Language Modeling (CLM),即在给定前文的情况下,预测下一个词。T5的预训练数据包括了Causal Language Modeling任务和多种NLP任务的数据。

BART的预训练任务是Sequence-to-Sequence Denoising,即从被扰动的序列恢复出原始序列。扰动的方式包括了词序打乱、词缺失、词替换等。

3. 生成方式

T5在生成时,采用了自回归的方式,即每次生成一个词,然后将生成的词作为新的输入,进行下一个词的生成。

BART在生成时,也采用了自回归的方式,但由于其encoder是双向的,因此在生成时可以考虑到整个输入序列的信息。

总的来说,T5和BART在模型结构、预训练任务和生成方式上都有所不同,但都是将NLP任务视为序列到序列的转换问题,都采用了自回归的生成方式。

参考资料:

  1. Raffel, Colin, et al. "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer." arXiv preprint arXiv:1910.10683 (2019).
  2. Lewis, Mike, et al. "Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension." arXiv preprint arXiv:1910.13461 (2019).

  • 9
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 好的,这是比较流行的 20 个 NLU 深度学习模型: 1. BERT 2. GPT 3. Transformer 4. RoBERTa 5. XLNet 6. ERNIE 7. Albert 8. T5 9. Pegasus 10. XLM 11. DeBERTa 12. Text-GPT 13. MT-DNN 14. ELECTRA 15. FlauBERT 16. Text-XLNet 17. CTRL 18. Funnel-Transformer 19. UniLM 20. BART 希望这些模型能够帮助你。如果你想了解这些模型的更多信息,我可以为你提供一些资源。 ### 回答2: 以下是20个比较流行的NLU深度学习模型: 1. BERT (Bidirectional Encoder Representations from Transformers) 2. GPT (Generative Pre-trained Transformer) 3. XLNet (eXtreme Multi-task Learning) 4. RoBERTa (Robustly Optimized BERT Approach) 5. ALBERT (A Lite BERT) 6. ELECTRA (Efficiently Learning an Encoder that Classifies Token Replacements Accurately) 7. DistilBERT (Distilled BERT) 8. TinyBERT (Smaller BERT for Fine-tuning) 9. CamemBERT (BERT for French Language) 10. Multilingual BERT (BERT for Multiple Languages) 11. SpanBERT (BERT for Span-based Question Answering) 12. MT-DNN (Multi-Task Dual Encoder with Transformers) 13. T5 (Text-to-Text Transfer Transformer) 14. GPT-3 (Generative Pre-trained Transformer 3) 15. BART (Bidirectional and Auto-Regressive Transformers) 16. XLM (Cross-lingual Language Model) 17. Transformer-XL (Transformer with Long-term Dependency) 18. ULMFiT (Universal Language Model Fine-tuning) 19. ELMo (Embeddings from Language Models) 20. LASER (Language-Agnostic SEntence Representations) 这些深度学习模型在NLU领域中得到广泛应用和研究,并结合自然语言处理任务,如文本分类、命名实体识别、情感分析等,能够帮助处理和理解自然语言文本。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

samoyan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值