自注意力机制(Self-attention)

之前我们CNN的时候还是给定大小的矩阵,但是如果说我们的矩阵输入是可变的呢??那要怎么做??
举个简单的例子:文字处理。
我们把每一个单词都视作一个Vector,那么一个句子就是一个大小不固定的Matrix
最蠢的做法是 One-hot Encoding
也就是说:如果有n个单词,我就搞一个n维向量
而且你看不到词汇之间的关系:如动物,单复数等
还有一种是Word Embedding

这个 最直观的表现就是动物在一团,植物在一团
再举个例子:语音识别

取25ms做一个frame 。然后经过一些神秘的处理,变成一个Vector。如下
接着

然后往右移动10ms。 (25和10都是古圣先贤帮你调好的)

再比如GNN了,Social Network就是一个Matrix,且随机。每一个节点是一个Vector,性别啊工作啊等等。

再说化学中,每个原子就是一个Vector,当然元素周期表是很少的,就可以用One-hot vector表示
接下来讲:怎样输出??

输入n个Vector,输出n个Vector。而且输出的可能是Scale也可以是Classification
举个例子:
①给一句话标记词性,名词or动词。POS tagging

本文介绍了自注意力机制(Self-attention)在处理可变长度输入,如文字处理、语音识别和社交网络推荐等问题中的应用。自注意力允许模型考虑输入序列中所有元素之间的关联,避免了传统方法如RNN的序列依赖问题。文章详细阐述了自注意力的计算过程,并提到其在NLP、语音识别和图像处理中的使用,包括位置编码和Transformer模型的改进。
最低0.47元/天 解锁文章
1949

被折叠的 条评论
为什么被折叠?



