几篇比较好的链接
机器不学习:一文看懂Attention机制
斯坦福ppt
本文主要以问自己问题的方式去理解什么是attention,理解可能会有偏差,欢迎指正。
Attention 机制
问1: 为什么用Attention机制?
这个是由于传统的encoder-decoder模型,如何从source学习东西呢?那就是从encoder的输出决定,对于LSTM模型来讲,很大程度上依赖于最后一个hidden state,那他的坏处可能有两个
- 只依赖于最后输出,对于模型的编码能力要求很高,有可能造成学习不够,或者长短期遗忘,导致并没有获取我们想要的足够的信息
- 反向传播可能造成梯度消失,某种程度上由1造成,这也是为什么resnet的想法好的原因。总之,一句话,加强encoder 部分传导到下一步的程度,增加监督。
问2: Attention机制怎么做的?
把sour