自然语言处理（七）：注意卷积神经网络的简单问题回答

最新推荐文章于 2024-05-04 00:10:42 发布

悠哉的咸鱼

最新推荐文章于 2024-05-04 00:10:42 发布

阅读量537

点赞数

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/qq_42939752/article/details/119965452

版权

神经网络知识图谱自然语言处理

自然语言处理专栏收录该内容

8 篇文章 1 订阅

订阅专栏

论文名称：Simple Question Answering by Attentive Convolutional Neural Network
论文地址：https://arxiv.org/pdf/1606.03391.pdf
前置知识：上篇博客我们说了知识图谱是什么，以及要解决什么问题，本篇博客不再复述该部分。
作者Wenpeng Yin的这篇论文主要讲了实体链接网络和关系检测网络的改进机制。

一、关系链接网络

1.word-cnn

关系链接网络的结构如下图所示，该机制相对于传统的lstm的一大区别为使用卷积神经网络cnn来对词向量进行处理，word-CNN可以提取更细粒度的信息。就pridicate(谓语)而言，其时间信息不够明显，用cnn提取整体信息效果反而更好一些。而在pattern中，论文使用了注意力机制，提取信息与transform相似，考虑了时间信息。
在这里插入图片描述

2.注意力机制

该模型在池化层引入了注意力机制，让信息提取更有效化。如下图所示， ${V_{TMP}}$ 是传统池化层的输出， ${V_{AMP}}$ 是加入注意力机制的池化层输出。
在这里插入图片描述
计算过程如下：
(1)谓语词向量和 ${F_{pattern}}$ 矩阵每一列计算余弦相似度，该部分如下图所示：

(2)计算出相似度后，我们进行这样一个处理，小于0的值我们设置为0（其实就是relu)，；大于0的数，我们给每个数都除以最大值（归一化，防止整体数据过小）,得到 $\mathop S\limits^ -$ 。即 $\over {0.97}} = 1$ 、 $\over {0.97}} = 0$ 、 $\over {0.97}} = 0.78$ 、 $\over {0.97}} = 0.71$ ，结果如下图所示。
在这里插入图片描述
(3) ${F_{pattern}}$ 矩阵的每一列除以对应的 $\mathop S\limits^ -$ 值，得到 ${F_{decay}}$ 矩阵。计算过程如下图所示。

(4)计算每一行的最大值，并对其位置进行标记得到coord，标记过程如下图。

(5)最后，我们利用coord把原始矩阵 ${F_{pattern}}$ 的值给选出来，生成 ${V_{AMP}}$ 。
在这里插入图片描述
加入注意力机制后的max-pooling不仅考虑到了哪个单词信息量更大，而且考虑到了哪个词和predicate（谓语）的关系更为密切，所以能更有效提取信息。

二、实体链接网络

实体链接网络结构如下图所示，相比于使用word-embedding和lstm，本论文使用char-cnn无需考虑单词内部的语法信息。实体和mention包含的时间信息并不多，使用char-cnn可以更细粒度的检测，并且在我们拼写错误时仍可以有效提取信息(得益于感受野对整体信息的抽取，即更关注重点而非细节)。
在这里插入图片描述