Transformer浅析

原论文地址:

https://arxiv.org/abs/1706.03762

原解析地址:

https://jalammar.github.io/illustrated-transformer/

代码地址:

https://github.com/tensorflow/tensor2tensor

一、概述

本文内容是对《Attention Is All You Need》所提出的Transformer模型进行的简单梳理。Transformer的基础即是注意力机制(Attention),该模型由Google主导提出,起初的目的是使用注意力机制来改善NMT(Neural Machine Translation)模型,后来发现transformer在某些特定的任务场景下甚至超越了NMT的性能,因此论文取名《Attention Is All You Need》,意为仅使用Attention模块便足够了,不再需要使用RNN、CNN等复杂结构或搭配混合使用。在transformer之后,基于transformer的BERT模型在NLP领域也得到了很好的发展。本文将穿插记录《Attention Is All You Need》和《The Illustrated Transformer》两篇文章来对transformer模型进行一个简单梳理。

二、Transformer优点

  • transformer相对于拥有残差结构和卷积结构的深度学习模型来说,其网络结构更加简单,并且训练和推理速度更快。(仅在P100GPUs上训练了12个小时就达到了SOTA水平)。
  • 仅使用transformer在一些特定的任务上能取得更好的测试效果(语言建模,机器翻译等)。
  • transformer拥有更高的并行度,并作为了谷歌云推荐的TPU(Tensor Processing Unit)推导模型。

三、Transformer结构

1.整体结构

从最高层面来看,Transformer最为

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值