6.1 Transformer简介

本文介绍了Transformer模型的背景、优势和市场,重点解析了Transformer的总体架构,包括输入、输出、编码器和解码器四个部分,详细阐述了各部分的组成和功能,适用于自然语言处理中的机器翻译、文本生成等任务,并可作为预训练模型进行迁移学习。
摘要由CSDN通过智能技术生成

第一章:Transformer背景介绍

 

1.1 Transformer的诞生


2018年10月,Google发出一篇论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》, BERT模型横空出世, 并横扫NLP领域11项任务的最佳成绩!


而在BERT中发挥重要作用的结构就是Transformer, 之后又相继出现XLNET,roBERT等模型击败了BERT,但是他们的核心没有变,仍然是:Transformer.

1.2 Transformer的优势


相比之前占领市场的LSTM和GRU模型,Transformer有两个显著的优势:
1 , Transformer能够利用分布式GPU进行并行训练 ,提升模型训练效率 .
2 , 在分析预测更长的文本时 , 捕捉间隔较长的语义关联效果更好 .

下面是一张在测评比较图:

1.3 Transformer的市场


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值