T5与BERT与GPT之间的区别

BERT采用Transformer的encoder结构,实现文本到向量的映射,侧重于理解上下文;GPT使用decoder结构,从给定的向量生成文本,强调序列生成;T5结合两者,是完整的seq2seq模型,适用于多种NLP任务。
摘要由CSDN通过智能技术生成

T5、BERT、GPT

提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加
例如:第一章 T5与BERT与GPT之间的区别


提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录


前言

  1. BERT,是一个Transformer encoder结构(双向attention),把input从文本空间映射到向量空间
  2. GPT,是一个Transformer decoder结构,给定一个向量空间的向量,GPT将会把这个向量映射到文本空间
  3. T5是BERT+GPT模型

Encoder: 将文本映射到向量空间; Decoder: 将向量映射到文本空间


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
GPT(Generative Pre-trained Transformer)是一种基于Transformer架构的预训练语言模型,与其他的语言模型例如BERTT5、ENIRE有以下特点、优势与劣势: 1. BERT(Bidirectional Encoder Representations from Transformers):BERT是一种双向的语言模型,与GPT不同的是,BERT使用了Masked Language Model(MLM)和Next Sentence Prediction(NSP)两种预训练任务。BERT在预测的时候可以同时看到前后的语境,因此在一些需要双向上下文理解的任务上表现出色。但是,BERT对于生成式任务的支持不够突出,因为它的训练过程并不是面向生成式任务的。 2. T5(Text-to-Text Transfer Transformer):T5是一种通用的文本生成模型,它的训练过程采用了seq2seq的方式。相较于GPTT5的输入和输出可以是各种形式,包括分类、生成、摘要等多种任务类型。T5可以承担很多不同的任务,但是由于其面向的是seq2seq任务,因此在一些单向上下文理解的任务上表现不如GPT。 3. ENIRE(Encoder-Decoder with Intra-Encoder Residual Attention):ENIRE是一种基于Encoder-Decoder架构的语言模型。与GPT不同的是,ENIRE使用了Intra-Encoder Residual Attention(IERA)机制,可以使得模型更好地捕捉单向上下文中的信息。但是相较于GPT,ENIRE只能处理有限的任务类型。 综上所述,GPT的优势在于它是一种单向的语言模型,可以更好地处理单向上下文的信息,并且在生成式任务上表现出色。但是,由于其训练过程中只采用了单向的预测任务,因此在双向上下文理解的任务上表现不如BERT。同时,相较于通用的模型T5GPT只能处理生成式任务,因此在需要处理多种任务类型的场景中可能不够灵活。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值