【论文笔记】Decomposable attention

是这个Paper的一些笔记

Parikh A P, Täckström O, Das D, et al. A decomposable attention model for natural language inference[J]. arXiv preprint arXiv:1606.01933, 2016.

这是一个比较简单易行的方法:两个句子之间怎么做attention
下面这个博客有一些解析
https://zhuanlan.zhihu.com/p/26237357

我自己也再把representation的地方记录一下:

我们首先有两个句子

a=[a¯1,...,a¯m];b=[b¯1,...,b¯n] a = [ a ¯ 1 , . . . , a ¯ m ] ; b = [ b ¯ 1 , . . . , b ¯ n ]

  • 第一步: Attend
    image_1ci6vh5ej13sl1g44fl6112aqrl23.png-8.1kB
    这里得到交互的权重矩阵。(这里的交互方式是用了把词向量过了前馈网络之后的结果做点积)。
    接着
    image_1ci6uno4c3rrr6d6661po270q16.png-53.4kB
    这两个公式是什么意思呢?
    比如: αj α j 就是对于句子 a a 中的每个词 a¯i, 用它与句子 b b 中的词b¯j 的attention权重 加权 a¯i a ¯ i 的词向量得到的结果。反之亦然;

    这里有点绕的就是:
    α α 对应的是句子 b b 中的词;
    β 对应的是句子 a a 中的词;

  • 第二步 Compare

    就是这两个公式
    image_1ci7eln0215ta1u5uheb1gt8muh3g.png-15.7kB

    其中 [a¯i,βi] 就是把两部分concat起来
    (句子中第 i i 个词, 和另一个句子里所有词与它比较的加权词向量)
    G 还是一个前馈神经网络
    所以这一步的结果就是 v1,v2 v 1 , v 2 这两个向量

  • 第三步 Aggregate

    就是分别du把对 v1,v2 v 1 , v 2 中的每个元素求和,得到两个值之后做分类。
    image_1ci7fi90m1jnu1radfg865phkf3t.png-7kB
    其实我认为representation的工作到第二步就可以截止了
    得到向量之后,后面怎么做可以发挥一下。

(先不考虑self-align的话,其实到这里就结束了)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值