dbRNN事件抽取
1. 概括
本论文的创新点我个人总结如下:
- 实现了事件触发词以及Argument的联合抽取,避开了Pipeline方法中错误的触发词识别结果会在网络中传播的问题;同时联合抽取的过程中,有可能通过元素抽取的步骤反过来纠正事件检测的结果。
- 将元素的互信息作为影响元素抽取结果的因素。举例说明:在下面的Figure 1中,如果确定了Palestine Hotel 是fired这一触发词的角色,又知道American tank与Palestine Hotel都依赖于动词fired,那么American tank也是一个事件角色的概率就会增加。
- 在构建模型的过程中使用了句法信息
2.模型
2.1 带有Dependency Bridges 的 Bi-LSTM
Bi-LSTM 不需要过多介绍,即在每一个时间步都同时计算前向和后向的隐藏状态。在时刻 t t t,前向和后向的隐藏状态分别为:
h t → = L S T M → ( h t − 1 → , x t ) \overrightarrow{h_t} = \overrightarrow{LSTM}(\overrightarrow{h_{t-1}}, x_t) ht=LSTM(ht−1,xt)
h t ← = L S T M ← ( h t + 1 ← , x t ) \overleftarrow{h_t} = \overleftarrow{LSTM}(\overleftarrow{h_{t+1}}, x_t) ht=LSTM(ht+1,xt)
则时刻 t t t的输出 h t = [ h t → , h t ← ] h_t = [\overrightarrow{h_t}, \overleftarrow{h_t}] ht=[ht,ht]
那么,如何定义 Dependency Bridges 呢?我们可以继续看图1:
"died"和"fired"之间具有名为"advcl"的句法关系,同理,"fired"和"hotel"之间也有类似的关系。这些关系能够提供很多包括时间,因果等的有效信息,同时已经在论文 Joint event extraction via structured prediction with global features 中被证明对事件抽取任务具有益处。与上面的句法依存关系类似,我们在Bi-LSTM的节点之间建立对应的联系,使得句法依存的信息能够在LSTM节点中传播。论文作者把这一结构称为 Dependency Bridges。具体的模式如下图所示:
每一种依存结构都有其特有的权重,同时,由于依存是有方向的,所以对于每一种依存结构,前向和后向的权重都有所不同,例如对于"nsubj"结构,前向的依存权重为 a + n s u b j a_{+nsubj} a+nsubj,反向的依存权重为 a − n s u b j a_{-nsubj} a−nsubj。在LSTM进行计算的过程中,Dependency Bridge 会影响每个时刻的隐藏状态。在 t t t时刻,将所有与当前cell有依存关系的cell集合设为 S i n S_{in}