Self-Attention机制学习

troysps

已于 2022-06-01 10:04:03 修改

阅读量313

点赞数

分类专栏： deep learning 文章标签：学习深度学习自然语言处理

于 2022-05-31 18:37:39 首次发布

本文链接：https://blog.csdn.net/troysps/article/details/125071176

版权

CNN网络用输入是一个向量比如图像处理之后 3x224x224 所有图片大小一致
但是输入可以是一排向量并且每行长度都不一样
- 文字处理–句子长度不一样 vector set 长度不一样常规做法one-hot encoding 问题:向量里面没有语义另一个方法: word embedding
- 一段语音每个window包含的语音信息都是不一样的
- 关联图其实每个节点可以看作一个向量

利用全连接网络，输入一个句子，输出对应单词数目的标签。当一个句子里出现两个相同的单词，并且它们的词性不同（例如：I saw a saw. 我看见一把锯子），这个时候就需要考虑上下文：利用滑动窗口，每个向量查看窗口中相邻的其他向量的性质。

is it possible to consider the context ?
- FC can consider the neighbor
how to consider the whole sequence ?
- a window covers the whole sequence?
- 每个input长度不一致

首先来看下整个过程

在这里插入图片描述

由此可以看出整个过程基本分为三步

什么是Q，K？
- Q:queries K:key Q表示查询 K表示关键词借鉴推荐系统中的含义根据Q与K计算关联性然后推荐V(但是self-attention的目标不是单纯的抽取V)
为什么Q*K计算自己的关联性
- 首先我们知道计算矩阵的内积 $XX^T$ 的意义在于表征一个向量在另一个向量上的投影, 也就是两个向量之间的关联性
为什么不用** $XX^T$ **
- 我认为有以下几点好处
- 1. Q，K 通过空间变换矩阵将输入分别变化为Q,K 解决了输入长度不一致的问题
  2. 通过中间的变换减少了计算量 $(seqLen \times inputDim \times inputDim \times seqLen) \ 变换成了 Q(seqLen \times inputDim \times inputDim \times dimK) \ K(seqLen \times inputDim \times inputDim \times dimK) \ 最后QK(seqLen \times seqLen ) $
  3. 通过中间层学习到了非线性特征