从编解码和词嵌入开始,一步一步理解Transformer,注意力机制(Attention)的本质是卷积神经网络(CNN)(3)(注意力机制)

1.注意力机制
首先,请各位看官大老爷,看这个图。 在这个图上,最下面有输入和输出。这就相当于我们前面说的自然语言处理。左边输入中文,他会自动的翻译成英文 ,从右边输出。当然,这是在训练好的情况下。如果是为了训练,左边和右边都是一种输入。分别把中文和英文语义相同的语料输入到模型里面,最后输出的是图中最上面的那部分。一个是损失函数在上面,通过损失函数的值,在进行反向传播,去修改里面的参数。我们看一下最下方,输入和输出都有一个Embedding ,也就是说,输入,和输出都是先转换成词向量,然后再去进行后续的操作。也即是说,这一层已经有一个嵌入矩阵了。这个嵌入矩阵也不是死的,需要在训练时进行调整参数。这个过程就是相当于准备好词典。把单个token词义都查出来。词和词组合之后的语义,是需要在现在的基础之上,在进行分析和理解的。对词和词组合之后的语义理解,靠的就是注意力机制。就是图中橙色的部分。这就是transformer的核心。

在这里插入图片描述

2.什么是注意力?怎么理解注意力
理解注意力机制,最直接的方法,请看下面的这张图。

在这里插入图片描述
下面,解释一下这张图。作为一组词向

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值