Attention Mechanism可以帮助模型对输入的X每个部分赋予不同的权重,抽取出更加关键及重要的信息,使模型做出更加准确的判断,同时不会对模型的计算和存储带来更大的开销,这也是Attention Mechanism应用如此广泛的原因。
之前在做知识库问答和阅读理解问答的研究中都用到了attention机制,效果确实比较显著(虽然减慢训练速度的效果也比较显著…)。在是谷歌发布论文Attention Is All You Need后,attention更是成为了一种普遍做法。后来发现在图像领域attention也有应用,在CNN上加attention感觉比较神奇,因此做一个小的总结。等读完这篇论文后,再来补充论文里的思想。
RNN with Attention
在nlp领域,attention主要应用在Encoder + Decoder框架的基础上。
attention最早应该出现在2014年bengio的neural machine translation论文上面,在seq2seq问题上引入attention
CNN with Attention
主要