Attention机制笔记
attention就是权重
Transformer BERT GPT等AI模型全是在此基础上发展来的
以电脑翻译Beijing 2022 Winter Games为例:
单个Games表示游戏
联系Beijing时,Games是比赛
综合Winter和2022时,可以翻译为北京2022冬奥会
RNN网络的每层结果取决于这一层的输入和上一层的输出,两个RNN组合就形成encoder-decoder模型,先编码再解码,但这种的encoder每次的结果都是同样长度(类似于形成hsah的MD,SHA算法)
attention就是每个时间得到不同的中间值,通过训练可得到最好的网络结构,打破了只能使用encoder形成单一向量的限制。将注意力改到对当前单词翻译最重要的信息上,提高效果。
其实就是对输入打分
self-attention就是没有顺序的打分(不仅仅以Games为主体,其他为辅),这样就串入了上下文信息。就像出门照镜子,自己看看可以提高哪里的颜值(就是提高哪里的权重)
我们的视觉系统也是attention系统,我们总是把注意力放在重要的信息上,快速获得最有用的信息。
总结:三大优点
- 参数更少
- 速度更快
- 效果更好
点**
- 参数更少
- 速度更快
- 效果更好
**核心思想:通过加权求和结合对context的理解,在不同等上下文下专注不同的信息。**所以attention可以在NLP、图像、推荐里大展拳脚。
参考B站UP梗直哥丶
https://www.bilibili.com/video/BV1xS4y1k7tn?spm_id_from=333.999.0.0