NN in NLP

最新推荐文章于 2021-07-02 10:29:38 发布

smartcat2010

最新推荐文章于 2021-07-02 10:29:38 发布

阅读量719

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/smartcat2010/article/details/88357950

版权

深度学习专栏收录该内容

34 篇文章 0 订阅

订阅专栏

attention:

https://blog.csdn.net/qq_41058526/article/details/80783925

https://blog.csdn.net/u014665013/article/details/82619808

句子翻译：decoder每时刻t的输入是t-1时刻的预测输出，t-1时刻的隐层输出z[t-1]，t时刻来自encoder的句子向量。其中"t时刻来自encoder的句子向量", 是由z[t-1]和encoder每个状态i的隐层输出h[i]经非线性变换得到相似匹配度a[i], 再把a[i]*h[i]加和得到。

Attention函数的本质可以被描述为一个查询（query）到一系列（键key-值value）对的映射

第一步是将query和每个key进行相似度计算得到权重，常用的相似度函数有点积，拼接，感知机等；第二步一般是使用一个softmax函数对这些权重进行归一化；第三步将权重和相应的键值value进行加权求和得到最后的attention。目前在NLP研究中，key和value常常都是同一个，即key=value。

Attention在NLP中其实我觉得可以看成是一种自动加权，它可以把两个你想要联系起来的不同模块，通过加权的形式进行联系。通过设计一个函数将目标模块mt和源模块ms联系起来，然后通过一个soft函数将其归一化得到概率分布

目前Attention在NLP中已经有广泛的应用。它有一个很大的优点就是可以可视化attention矩阵来告诉大家神经网络在进行任务时关注了哪些部分。不过在NLP中的attention机制和人类的attention机制还是有所区别，它基本还是需要计算所有要处理的对象，并额外用一个矩阵去存储其权重，其实增加了开销。而不是像人类一样可以忽略不想关注的部分，只去处理关注的部分。

以前不带attention的RNN翻译模型：输入序列不论长短都会被编码成一个固定长度的向量表示，而解码则受限于该固定长度的向量表示。尤其是当输入序列比较长时，模型的性能会变得很差（在文本翻译任务上表现为待翻译的原始文本长度过长时翻译质量较差）。

attention模型最大的区别就在于它不在要求编码器将所有输入信息都编码进一个固定长度的向量之中。相反，此时编码器需要将输入编码成一个向量的序列，而在解码的时候，每一步都会选择性的从向量序列中挑选一个子集进行进一步处理。

注意力矩阵："对齐"效果

smartcat2010

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NN in NLP

attention:https://blog.csdn.net/qq_41058526/article/details/80783925https://blog.csdn.net/u014665013/article/details/82619808句子翻译：decoder每时刻t的输入是t-1时刻的预测输出，t-1时刻的隐层输出z[t-1]，t时刻来自encoder的句子向量。其中"...
复制链接

扫一扫

专栏目录