李宏毅2021机器学习笔记（十一）

原创

已于 2022-08-02 09:42:25 修改 · 896 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2022-04-08 21:49:37 首次发布

本文介绍了自注意力机制（Self-attention）在处理可变长度输入，如文字处理、语音识别和社交网络推荐等问题中的应用。自注意力允许模型考虑输入序列中所有元素之间的关联，避免了传统方法如RNN的序列依赖问题。文章详细阐述了自注意力的计算过程，并提到其在NLP、语音识别和图像处理中的使用，包括位置编码和Transformer模型的改进。

自注意力机制（Self-attention）

之前我们CNN的时候还是给定大小的矩阵，但是如果说我们的矩阵输入是可变的呢？？那要怎么做？？

举个简单的例子：文字处理。

我们把每一个单词都视作一个Vector，那么一个句子就是一个大小不固定的Matrix

最蠢的做法是 One-hot Encoding

也就是说：如果有n个单词，我就搞一个n维向量

而且你看不到词汇之间的关系：如动物，单复数等

还有一种是Word Embedding

这个最直观的表现就是动物在一团，植物在一团

再举个例子：语音识别

取25ms做一个frame 。然后经过一些神秘的处理，变成一个Vector。如下

接着

然后往右移动10ms。（25和10都是古圣先贤帮你调好的）

再比如GNN了，Social Network就是一个Matrix，且随机。每一个节点是一个Vector，性别啊工作啊等等。

再说化学中，每个原子就是一个Vector，当然元素周期表是很少的，就可以用One-hot vector表示

接下来讲：怎样输出？？

输入n个Vector，输出n个Vector。而且输出的可能是Scale也可以是Classification

举个例子：

①给一句话标记词性，名词or动词。POS tagging

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。