ABCNN

最新推荐文章于 2021-09-06 17:09:30 发布

Preke

最新推荐文章于 2021-09-06 17:09:30 发布

阅读量1k

点赞数 2

分类专栏：人工智能算法 NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013398398/article/details/81191098

版权

人工智能算法同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

昨天和师兄聊了一下对attention的理解
其实相似性矩阵本身并不是模型的参数，是参数的只是后面的dense layers；

看了好久才弄懂ABCNN的卷积过程。
其实卷积也还是就是Yoon Kim的方法。
协助理解的时候，这篇讲的还是很好的：

https://blog.csdn.net/liuchonge/article/details/69587681

后面这里提了一下，说把中间pooling层的输出也合并到最后的输出里，可以增强performance，但是实测效果却一般。感觉原因还是：
基于Yoon Kim的方法的话，第二层卷积的输入本身就是各个kernel输出的结果了，再卷积就没有提取局部特征的解释性了。

以下是ABCNN_1的过程：

输入的时候是两个句子

a = [a ¯ 1, a ¯ 2, . . ., a ¯ m] b = [b ¯ 1, b ¯ 2, . . ., b ¯ n]

$a = [\bar{a}_1, \bar{a}_2,...,\bar{a}_m]\\ b = [\bar{b}_1, \bar{b}_2,...,\bar{b}_n]$

首先计算一个相似度矩阵

A i, j = m a t c h s c o r e (a ¯ i, b ¯ j)

$A_{i,j}=matchscore(\bar{a}_i,\bar{b}_j)$

a¯i,b¯j a ¯ i , b ¯ j $\bar{a}_i,\bar{b}_j$ 表示对应的词向量

matchscore m a t c h s c o r e $matchscore$ 则是

1/(1+|x−y|) 1 / ( 1 + | x − y | ) $1/(1+|x-y|)$ ，其中

|x−y| | x − y | $|x-y|$ 是欧氏距离

那么其实现在

a \in R d * m b \in R d * n A \in R m * n

$a\in R^{\ d*m}\\ b\in R^{\ d*n}\\ A\in R^{\ m*n}\\$

接下来，我们可以得到

F a = W a ˙ A T F b = W b ˙ A

$F_{a}=W_a\dot{}A^T\\ F_{b}=W_b\dot{}A$
其中：

W a \in R d * n; F a \in R d * m W b \in R d * m; F b \in R d * n

$W_a\in R^{\ d*n};\ F_a\in R^{\ d*m}\\ W_b\in R^{\ d*m};\ F_b\in R^{\ d*n}$

然后将 $a, F_a$ 看成句子的两个channels输入到CNN中，做卷积
channel的作用其实可以看这里：
https://blog.csdn.net/sscc_learning/article/details/79814146
这样其实就是卷积核的维度也要增加一维。

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
ABCNN

昨天和师兄聊了一下对attention的理解其实相似性矩阵本身并不是模型的参数，是参数的只是后面的dense layers；看了好久才弄懂ABCNN的卷积过程。其实卷积也还是就是Yoon Kim的方法。协助理解的时候，这篇讲的还是很好的：https://blog.csdn.net/liuchonge/article/details/69587681后面这里提了一...
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。