是这个Paper的一些笔记
Parikh A P, Täckström O, Das D, et al. A decomposable attention model for natural language inference[J]. arXiv preprint arXiv:1606.01933, 2016.
这是一个比较简单易行的方法:两个句子之间怎么做attention
下面这个博客有一些解析
https://zhuanlan.zhihu.com/p/26237357
我自己也再把representation的地方记录一下:
我们首先有两个句子
第一步: Attend
这里得到交互的权重矩阵。(这里的交互方式是用了把词向量过了前馈网络之后的结果做点积)。
接着
这两个公式是什么意思呢?
比如: αj α j 就是对于句子 a a 中的每个词 , 用它与句子 b b 中的词 的attention权重 加权 a¯i a ¯ i 的词向量得到的结果。反之亦然;
这里有点绕的就是:
α α 对应的是句子 b b 中的词;
对应的是句子 a a 中的词;第二步 Compare
就是这两个公式
其中 就是把两部分concat起来
(句子中第 i i 个词, 和另一个句子里所有词与它比较的加权词向量)
还是一个前馈神经网络
所以这一步的结果就是 v1,v2 v 1 , v 2 这两个向量第三步 Aggregate
就是分别du把对 v1,v2 v 1 , v 2 中的每个元素求和,得到两个值之后做分类。
其实我认为representation的工作到第二步就可以截止了
得到向量之后,后面怎么做可以发挥一下。
(先不考虑self-align的话,其实到这里就结束了)