NLP学习17_Attention

注意力机制用在图像处理、NLP领域
在这里插入图片描述

看图说话

我们要从CNN识别结果中选择一个向量作为meaning vector
一般选择倒数第二层的向量,因为倒数第一层的向量更适合分类,而倒数第二层的向量更具泛化能力
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
使用attention:如果要看图说话, 比如我要生成girl这个单词,那么我的关注点肯定是图片中的小女孩,而不是整张图片

在这里插入图片描述
在这里插入图片描述

Seq2Seq

编码部分,首先要对每个单词进行pretrain embedding
使用网上下载的,比如Glove的vector。
每个单词都是一个embedding,使用时从embedding取出来

然后每个embedding经过LSTM生成向量g。
要使用attention,比如说我们在预测第一个单词,从start标志开始,产生h1向量,预测第一个单词的话,我肯定要关注中文句子中的第一个单词,所以如何使用attention是这里的问题。
计算每个中文单词gi和h1的内积,得到一个数,这个数经过一个归一化的操作,可以表示每部分的权重信息,比如第一个g1权重为0.6,那么我在预测第一个单词时就更关注g1.
我们这时要根据权重来生成一个新的c,这时生成预测第一个单词使用的就是新的c和h,通过这两个量来生成y1预测
可以将c和h进行拼接,再经过softmax来进行预测y。

之后的过程就是重复的,预测第二个单词,考虑c2和h2
在这里插入图片描述

Normalize方法

1、计算概率
2、使用softmax
在这里插入图片描述

注意力机制部分解决了梯度的问题

LSTM是时序的模型,没有attention的模型中,解码的过程整个都在使用c,
如果是解码的文本比较长,那么c的表示对前边的单词是表示不到或者表示很微弱
而使用了attention后,综合考虑了之前的所有单词。
在这里插入图片描述

attention的可解释性:比如说在模型翻译中,句子的“今天”翻译成了“yesterday”,那么我就可以去查找翻译库中是否存在对应错误

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值