关系抽取专题(三)Relation Classification via Multi-Level Attention CNNs

关系抽取论文笔记3: Relation Classification via Multi-Level Attention CNNs

Author: Linlin Wang, Zhu Cao, Gerard de Melo, Zhiyuan Liu

清华大学,罗格斯大学

来源:ACL16

3.1 研究动机

本文的一作是叉院大神,指导老师更是有耳熟能详的刘知远老师,所以入选关系抽取精读系列。它的研究动机其实主要是两点:1)端到端的框架,不需要人工的feature设计,这是同时期几篇做这个方向的顶会论文共同的出发点。2)深入的去理解关系抽取这个任务,把握它和一般分类问题的细致差别,从而在网络结构,主要是attention设计,以及loss fuction的设计上去针对性的优化。

3.2 研究方法

本文的架构是在之前的CNN作关系抽取的基础上,加了两层attention,一层是输入层的,一层是池化层的,具体如下:

架构

图3.1 模型网络架构

文章首先考虑的是loss function的设计,将其改成了
loss funciton
其中, δ θ ( S , y ) \delta_{\theta}(S,y) δθS,y表示对于句子S,模型预测的结果和关系的真实标签结果的距离,即
距离
这里有一个负采样的设计,即最小化正样本的边界,最大化负样本的边界。目标函数中的1则是代表边界,因为已经normalize了, β \beta β是超参,最后一部分代表了L2正则。

输入层的构建,作者沿用之前的工作,即(词向量,位置编码1,位置编码2)这样的拼接向量来做句子的表征,同时采用大小为k的滑动窗口作为上下文信息,即 Z = [ z 1 , z 2 . . . z n ] Z=[z_1,z_2...z_n] Z=[z1,z2...zn]

对于输入层的attention,作者采用了两个对角矩阵 A i , i j = f ( e j , w i ) A^j_{i,i} = f(e_j ,w_i) Ai,ij=f(ej,wi), 来定义每一个词和两个实体之间的相似程度,即 α i j = e x p ( A i , i j ) ∑ i ′ = 1 n e x p ( A i ′ , i ′ j ) \alpha_i^j=\frac{exp(A_{i,i}^j)}{\sum_{i'=1}^nexp(A_{i',i'}^j)} αij=i=1nexp(Ai,ij)exp(Ai,ij), 基于词,可以得到Input attention 的组合,即矩阵 R = [ r 1 , r 2 . . . , r n ] R =[r_1,r_2...,r_n] R=[r1,r2...,rn], 其中, r i = z i α i 1 + α i 2 2 r_i = z_i \frac{\alpha_i^1+\alpha_i^2}{2} ri=zi2αi1+αi2, Z 是一个k窗口的词向量。卷积层的输入,是由词向量,两个位置向量,以及两个attention组合共同决定。
模型卷积层的设计是标准的,即 R ∗ = t a n h ( W f R + B f ) R^* = tanh(W_fR + B_f) R=tanh(WfR+Bf)

文章的另一个关键设计是polling attention, 其实这里的改进就是,不是单纯的max,而是对于每一个池化窗口的元素,考虑他的权重,这个权重,就是池化attention, 即
A i , j p = e x p ( G i , j ) ∑ i ′ = 1 n e x p ( G i ′ , j ) A_{i,j}^p=\frac{exp(G_{i,j})}{\sum_{i'=1}^n exp(G_{i',j})} Ai,jp=i=1nexp(Gi,j)exp(Gi,j)。 其中G的定义为 G = R ∗ T U W L G = R^{*T}UW^L G=RTUWL, 池化的输出 则为:
w i O = m a x j ( R ∗ A p ) i , j w^O_i= max_j(R^*A^p)_{i,j} wiO=maxj(RAp)i,j,其中R* 为卷积层输出。

3.3 实验结果

这篇文章取得了数据集的SOTA,比之前的方案f1提高了4%.
f1

3.4 创新点

1) 采用了多层的attention机制,即输入层的entity-specific attention以及池化层的relation-specific pooling attention。
2)设计了新的loss function,即pair-wise margin-based
objective function
3)取得了 SemEval 2010 Task 8当时的STOA,F1 达到了88%,这个比前两篇文章分享的方案有了比较大的提升。

3.5 个人点评

这篇文章思路其实没有特别新颖,但是无论是attention 的设计还是loss function的改进,都很细致,充分考虑了关系抽取任务的特点。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值