Self-attention自注意力机制——李宏毅机器学习笔记

最新推荐文章于 2023-04-07 17:28:05 发布

我是小蔡呀～～～

最新推荐文章于 2023-04-07 17:28:05 发布

阅读量945

点赞数

分类专栏：李宏毅机器学习笔记文章标签：人工智能自然语言处理

本文链接：https://blog.csdn.net/overload_/article/details/128054907

版权

李宏毅机器学习笔记专栏收录该内容

7 篇文章 2 订阅

订阅专栏

self-attention想要解决的问题

复杂的输入

在这里插入图片描述
每次输入的length不同时，即Vector Set大小不同，该如何处理？
one-hot encoding，缺点：所有的词汇之间没有语义资讯。
word embedding，会给每一个词汇一个向量，一个句子则是一排长度不一
的向量，具有语义资讯。
在这里插入图片描述
1min便有6000个frame

输出是什么？

（1）Each vector has a label
在这里插入图片描述
(2)The whole sequence has a label

（3）Model decides the number of labels itself

Sequence Labeling

在这里插入图片描述

使用fc缺点：假设是词性标记，则无法正确识别。

It is possible to consider the context?

a window covers the whole sequence?
sequence长度有长有短，首先我们需要统计训练资料，查看一下最长的sequence有多长，然后开一个window（大于最长的sequence），这就会导致fc所需参数多，运算量大，容易overfitting。
所以使用self-attention:
知名paper：Attention is all you need.
在这里插入图片描述

在这里插入图片描述

如何计算‘阿尔法’数值：
（1）Dot-product——常用
（2）Additive

Dot-product
w先随机生成，后通过梯度下降训练得出。

为什么要用soft-max？
不一定用soft-max，只是比较常见，也可以用别的。

得到a’后，我们可以知道哪些向量与a1是最有关系的，然后我们开始根据attention score来抽取重要资讯：
在这里插入图片描述

b1-b4是可以并行计算得到

softmax可以使用其他

从I——>O就是做了self-attention
self-attention layer中唯一需要学习的参数是W