transformer

简介

transformer最早于2017年google机器翻译团队提出,也就是著名的
《Attention Is All You Need》,transformer完全取代了以往的RNN和CNN结构,改为由transformer堆叠的方式构建模型。
transformer在NLP领域首先取得了非常惊人的效果,随后,ECCV2020,DETR:《End-to-End Object Detection with Transformers 》首次将transformer引入到了CV的目标检测任务重,随后VIT:《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》完全抛弃了CNN,改为完全由transformer实现基础的图像分类任务,之后transformer在CV领域的应用也变得一发不可收拾。

基本概念

Transformer

transformer是一种网络结构,是一种seq2seq的模型,最开始用于处理机器翻译任务,transformer由encoder和decoder组成,encoder或者decoder又是由多个encoder block和decoder block堆叠而成,encoder block和decoder block分别是用直连,Multi-Head Attention,BN,全连接等基础层通过不同的方式组合连接而成。
在这里插入图片描述

Multi-Head Attention

Multi-Head Attention 包含多个 Self-Attention 层,同一个输入分别传递到 n个不同的 Self-Attention 中,计算得到 n 个输出结果。得到n个输出矩阵之后,Multi-Head Attention 将它们拼接在一起 (Concat),然后传入一个Linear层,得到 Multi-Head Attention 最终的输出 。

Self-attention

self-attention是一种新的layer,输入输出都是sequence,不同于RNN的是,self-attention layer可以做到并行。

Positional Encoding

self-attention的特性很好的实现了时序上的并行,但是也带来了其他问题,那就是没有了位置信息,一个sequence上不同位置的信息,self-attention是做同等处理的,这显然不符合NLP天然的时序逻辑,positional encoding的引入就是为了解决这个问题。

self-attention

Multi-Head Attention

Positional Encoding

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值