自注意力机制(Self-attention)
之前我们CNN的时候还是给定大小的矩阵,但是如果说我们的矩阵输入是可变的呢??那要怎么做??
举个简单的例子:文字处理。
我们把每一个单词都视作一个Vector,那么一个句子就是一个大小不固定的Matrix
最蠢的做法是 One-hot Encoding
也就是说:如果有n个单词,我就搞一个n维向量
而且你看不到词汇之间的关系:如动物,单复数等
还有一种是Word Embedding
这个 最直观的表现就是动物在一团,植物在一团
再举个例子:语音识别
取25ms做一个frame 。然后经过一些神秘的处理,变成一个Vector。如下
接着
然后往右移动10ms。 (25和10都是古圣先贤帮你调好的)
再比如GNN了,Social Network就是一个Matrix,且随机。每一个节点是一个Vector,性别啊工作啊等等。
再说化学中,每个原子就是一个Vector,当然元素周期表是很少的,就可以用One-hot vector表示
接下来讲:怎样输出??
输入n个Vector,输出n个Vector。而且输出的可能是Scale也可以是Cl