关系抽取专题（三）Relation Classification via Multi-Level Attention CNNs

最新推荐文章于 2024-06-03 17:41:26 发布

进击的AI奶爸

最新推荐文章于 2024-06-03 17:41:26 发布

阅读量770

点赞数 1

分类专栏： NLP学习之旅

本文链接：https://blog.csdn.net/shark803/article/details/90382850

版权

NLP学习之旅同时被 3 个专栏收录

30 篇文章 4 订阅

订阅专栏

AI转型之路

26 篇文章 1 订阅

订阅专栏

深度学习

11 篇文章 0 订阅

订阅专栏

关系抽取论文笔记3： Relation Classification via Multi-Level Attention CNNs

Author: Linlin Wang, Zhu Cao, Gerard de Melo, Zhiyuan Liu

清华大学，罗格斯大学

来源：ACL16

3.1 研究动机

本文的一作是叉院大神，指导老师更是有耳熟能详的刘知远老师，所以入选关系抽取精读系列。它的研究动机其实主要是两点：1）端到端的框架，不需要人工的feature设计，这是同时期几篇做这个方向的顶会论文共同的出发点。2）深入的去理解关系抽取这个任务，把握它和一般分类问题的细致差别，从而在网络结构，主要是attention设计，以及loss fuction的设计上去针对性的优化。

3.2 研究方法

本文的架构是在之前的CNN作关系抽取的基础上，加了两层attention，一层是输入层的，一层是池化层的，具体如下：

图3.1 模型网络架构

文章首先考虑的是loss function的设计，将其改成了
loss funciton
其中， $\delta_{\theta}（S,y）$ 表示对于句子S,模型预测的结果和关系的真实标签结果的距离，即

这里有一个负采样的设计，即最小化正样本的边界，最大化负样本的边界。目标函数中的1则是代表边界，因为已经normalize了， $\beta$ 是超参，最后一部分代表了L2正则。

输入层的构建，作者沿用之前的工作，即（词向量，位置编码1，位置编码2）这样的拼接向量来做句子的表征，同时采用大小为k的滑动窗口作为上下文信息,即 $Z=[z_1,z_2...z_n]$ 。

对于输入层的attention，作者采用了两个对角矩阵 $A^j_{i,i} = f(e_j ,w_i)$ ，来定义每一个词和两个实体之间的相似程度，即 $\alpha_i^j=\frac{exp(A_{i,i}^j)}{\sum_{i'=1}^nexp(A_{i',i'}^j)}$ , 基于词，可以得到Input attention 的组合，即矩阵 $R =[r_1,r_2...,r_n]$ , 其中， $r_i = z_i \frac{\alpha_i^1+\alpha_i^2}{2}$ , Z 是一个k窗口的词向量。卷积层的输入，是由词向量，两个位置向量，以及两个attention组合共同决定。
模型卷积层的设计是标准的，即 $R^* = tanh(W_fR + B_f)$

文章的另一个关键设计是polling attention, 其实这里的改进就是，不是单纯的max，而是对于每一个池化窗口的元素，考虑他的权重，这个权重，就是池化attention, 即
$A_{i,j}^p=\frac{exp(G_{i,j})}{\sum_{i'=1}^n exp(G_{i',j})}$ 。其中G的定义为 $G = R^{*T}UW^L$ , 池化的输出则为:
$w^O_i= max_j(R^*A^p)_{i,j}$ ,其中R* 为卷积层输出。

3.3 实验结果

这篇文章取得了数据集的SOTA，比之前的方案f1提高了4%.

3.4 创新点

1）采用了多层的attention机制，即输入层的entity-specific attention以及池化层的relation-specific pooling attention。
2）设计了新的loss function，即pair-wise margin-based
objective function
3）取得了 SemEval 2010 Task 8当时的STOA，F1 达到了88%，这个比前两篇文章分享的方案有了比较大的提升。

3.5 个人点评

这篇文章思路其实没有特别新颖，但是无论是attention 的设计还是loss function的改进，都很细致，充分考虑了关系抽取任务的特点。

进击的AI奶爸

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
关系抽取专题（三）Relation Classification via Multi-Level Attention CNNs

1. 论文研读笔记1.1 研究动机这是关系抽取经典论文的第三篇，这篇论文是叉院大神在16年ACL上的长文。这篇文章采用的基本方法是CNN, 个人揣测作者认为关系抽取这个任务，特征的选取优先级高于对于文本的语言模型的顺序。当然，作者主要的思路其实是把attention机制做得更为精致，毕竟关系抽取和普通文本分类本质的区别是，有明确的实体。其实，对于目标函数的优化，也是这个出发点。1.2 研究方...
复制链接

扫一扫

专栏目录