Transformer

本文深入探讨Transformer模型,一种基于自注意力机制的架构,完全摒弃了传统的递归和卷积。内容包括self-attention的原理,多头自注意力,seq2seq模型中的编码器和解码器,特别是非自回归解码器(NAT)的工作方式,以及训练过程。Transformer在自然语言处理(NLP)任务中发挥了重要作用。
摘要由CSDN通过智能技术生成

Abstract

        主要翻译模型基于复杂的循环或卷积神经网络,包括编码器和解码器。性能最好的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构 Transformer,它完全基于注意力机制,完全摒弃了递归和卷积。

self-attention

       例子:i saw a saw.很明显这两个saw是不相同的,但是如果不考虑整个句子的信息,对于模型来说这两个saw没啥区别。

         self-attention会包含一整个句子信息,input多少vector,就输出多少vector。(图中画圈的这四个vector是综合考虑到下面四个vector才得到的),那它是怎么得到的?

         通过dot-product来计算a1,a2,a3,a4之间的关联性

 通过观察soft-max过后得到的a`1,1 、a`1,2、a`1,3、a`1,4我们就可以知道谁与a`1,1关联性最大,之后就可以根据关联性来抽取重要的资讯。怎么抽?

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值