用最少的公式看懂Attention机制原理

最新推荐文章于 2024-04-12 22:28:09 发布

kasiko

最新推荐文章于 2024-04-12 22:28:09 发布

阅读量2.6k

点赞数 1

分类专栏： NLP 文章标签：深度学习人工智能 python 机器学习

本文链接：https://blog.csdn.net/kasiko/article/details/107306458

版权

本文深入浅出地介绍了Attention机制，解决了Encoder-Decoder模型在seq2seq任务中的弊端。通过分析Transformer中的encoder部分，阐述了如何利用位置编码和self-attention层捕获序列信息，强调了Attention结构的并行计算优势及其在自然语言处理中的广泛应用。

摘要由CSDN通过智能技术生成

Attention

Encoder-Decoder模型

enco-deco模型是seq2seq任务的一种实现方式，比如在英翻中任务中，encoder模块用来编码一句英文句子，在最后一个时刻用一个context-vector存储整句话的信息。

在decoder部分，通过context-vector解码出每个时刻对应的中文单词。
因为这一结构，encoder-decoder有一些固有的弊端：
1: context-vector可能不能覆盖输入句子的所有信息，先输入的信息会被后输入的信息覆盖。
2: 在decoder中，解码每个时刻的单词应该是对encoder每个时刻的vector有不同权重，
比如翻译I have a pen -> 我有一只笔。实际上翻译 ‘笔’ 的时候自然的应该多关注pen，但是enco-deco结构中只能做到把I have a pen整句话压缩到一个vector中。不能做到对不同时刻有不同的关注度。
在这里插入图片描述
为解决上述问题，attention思想被提出。
attention机制本质上是，在计算decoder中的 t时刻的隐藏状态时(记为query)，对输入序列的信息做加权求和。
那权重是怎么计算的呢？t时刻的输入信息分成key 和value对，计算query和key的相似度, 这个相似度即为权重，再乘对应的value，就得到了解码器t时刻的隐藏状态对输入序列t时刻的注意程度。

$\sum_{i=1}^{L}Similarity(query,key_{i}) *Value_{i}$

最低0.47元/天解锁文章

kasiko

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
用最少的公式看懂Attention机制原理

AttentionEncoder-Decoder模型enco-deco模型是seq2seq任务的一种实现方式，比如在英翻中任务中，encoder模块用来编码一句英文句子，在最后一个时刻用一个context-vector存储整句话的信息。在decoder部分，通过context-vector解码出每个时刻对应的中文单词。因为这一结构，encoder-decoder有一些固有的弊端：1: context-vector可能不能覆盖输入句子的所有信息，先输入的信息会被后输入的信息覆盖。2: 在deco
复制链接

扫一扫