Event Extraction via Dynamic Multi-Pooling Convolutional Neural

最新推荐文章于 2021-08-17 22:09:50 发布

windflyhuang

最新推荐文章于 2021-08-17 22:09:50 发布

阅读量1.7k

点赞数

分类专栏：论文阅读文章标签：事件抽取

论文阅读专栏收录该内容

5 篇文章 0 订阅

订阅专栏

摘要：ACE事件抽取任务的传统方法基本依赖于精巧的特征设计和复杂的NLP工具。那些方法缺乏普适性，耗费大量人力物力且容易错误传播。

3.方法
在这篇论文中，事件抽取有两个阶段，通过使用动态多池卷积神经网络自动学习特征来实现多类分类。第一步是触发词分类，我们使用DMCNN来讲句子中每个词语分类来实现触发词的识别。如果一个句子有触发词，第二部将执行，在此使用DMCNN分配论元给触发词和匹配论元到角色。我们把这一过程叫做论元分类。
图2 描述了论元分类的结构，基本上涉及以下部分：（1）词嵌入学习，无监督方式；（2）词典级别特征表示，直接用词向量来发现词汇线索；（3）句子级特征抽取，提出DMCNN来学习句子中组成语义特征；（4）论元分类输出，为每一个论元候选角色计算置信度值。
3.1 词嵌入学习和词汇级特征表示
词汇级别特征是事件抽取中的重要线索。传统的词典级别特征基本上包括候选词的lemma，同义和词性标签。这种特征的质量依赖于现有的NLP工具和人工精巧。这篇论文选择无监督预训练词向量作为基本数据源特征，我们选择候选词的词向量（候选触发词，候选论元）和上下文token（候选词左右token）。然后，所有词向量串起来词汇级别特征向量L来表示论元分类里的词汇级别特征。
在这项工作中，我们使用skip-gram模型来预训练词向量。skip-gram使用扩大平均值log可能性来训练词语w1，w2……wm。

3.2 使用DMCNN进行句子级别特征学习
CNN使用最大池是一个很好的选择来获得句子中长距离词之间的语义关系。但是，传统的CNN不能解决时间抽取的问题。因为一个句子中可能包含不仅仅一个事件，仅仅使用最重要的信息来表示这个句子，因为在传统的CNN中，会市区很多有价值的线索。为了解决这个问题，我们提出了DMCNN的方法来抽取句子级别的特征。DMCNN使用动态多池卷积神经网络来实现一个句子中每个部分的最大值获取，这个句子被事件触发词和事件论元分割。
3.2.2 输入
预测的触发词与候选论元之间的语义关系对于论元分类是至关重要的。因此，我们提出了三种类型输入来使我们的DMCNN可以获得重要的线索：
词汇上下文特征CWF:就是使用CBOW的词向量。
位置特征：这个很有必要于确定单词在论元分类中是否是预测的触发词还是候选论元。因此，我们提出PF定义为当前词语和候选论元或者触发词之间的距离，。为了编码位置特征，每一个距离值用向量表示。类似于词嵌入，距离值随机初始化和最优化使用后项传播方法。
事件类型特征：当前触发词的事件类型对于论元分类是有价值的，所以我们在触发词分类阶段就对事件类型预测进行编码，然后作为DMCNN的重要线索。
图2 假定词向量大小为dw=4，位置嵌入大小为dp=1,事件类型嵌入为de=1，xi属于Rd,其中i表示第d维度在句子中第i个词汇，其中d=dw+dp*2+de。一个长度为n的句子如下：
x1:n = x1 ⊕ x2 ⊕ … ⊕ xn
⊕为串联操作符号。因此，结合词嵌入、位置嵌入和事件类型嵌入把一个实例转换成一个矩阵X ∈ Rn×d,然后X将输入卷积网络中。
3.2.2 卷积
卷积层目的在于抓取整个句子的组成语义，然后压缩那些有价值的语义到特征映射中。xi：i+j表示词向量从i到i+j的串联，卷积操作升级一个w ∈ Rh×d，应用h个单词为窗口来生成新的特征。比如说，特征Ci由xi：i+h-1的窗口单词生成。ci = f(w · xi:i+h-1 + b)

其中b属于R，f是一个非线性双曲正切函数，我们把这一过程描述为从以过滤抽取为特征映射。为了抓取不同的特征，我们通常使用卷积多层过滤。假定我们使用过滤W=w1,w2……wm,卷积操作表达如下：

其中j范围为1到m.卷积结果为矩阵C ∈ Rm×(n-h+1).
3.2.3 动态多池
从每一个特征映射中抽取最重要的特征（最大值），传统的CNN只是拿一个特征映射作为一个池，也只是获得每一个特征映射的最大值。但是，单个最大池对于事件抽取是不充足的。因为一个句子中可能存在多个事件，每一个候选论元都可能扮演不同角色。所以我们在论元分类阶段根据候选论元和已经预测的触发词将每一个特征映射且分为三部分。除了对整个特征映射使用最大值来表示句子，我们保存每一个切分部分的最大值，称为动态多元。相对于传统最大值池，动态多池储备了更多的有价值信息。
如图2所示，特征映射输出Cj被切分为三部分Cj1,Cj2,Cj3,动态多池可以表示如形式下，其中1<=j<=m,1<=i<=3 .pji = max(cji)
经过动态多卷积层，我们获得每个特征映射pij。我们串联所有pij成为向量P ∈ R3m.
3.3 输出
自动学习词汇和句子级特征全部串联成一个向量F=[L,P].为了计算每一个论元角色的置信度，特征向量F ∈ R3m+dl，其中m是特征映射的个数，dl是词汇级别特征的维数。

3.4 训练
我们定义论元分类阶段的所有参数为θ =(E, PF1, PF2, EF, W, b, WS, bs)。其中，e表示词向量，PF1和PF2都是位置嵌入，EF是嵌入事件类型，W和b是过滤参数，Ws和bs是输出层的参数。
给出一个数据样本s,网络参数为θ ，输出为向量O,Oi包含论元角色i的分值，为了获得条件概率p(i|x, θ)，我们对所有论元角色类型s进行oftmax操作。

3.5 触发词分类模型
上面的模型也适合触发词分类，但是仅需要获得句子中的触发词，相对于论元分类这还是比较简单的。所以我们使用简化版本的DMCNN
在触发词分类中，在词汇级特征表示中我们只使用候选触发词和其左右token，在句子级别的特征表示中，我们使用CWF，但是我们只使用候选触发词的位置作为嵌入位置特征。句子将由触发词分割成两部分，除此之外，其他基本与上面的方法相同。
4.实验
4.1 数据和评估矩阵
数据还是ACE2005语料，主要是为了和前面的方法对比性能。在触发词分类过程中，我们设置窗口大小为3，特征映射为200，批次大小为170，PF的维数为5,。在论元分类中，我么你设置窗口为3 ，特征映射为300，批次大小为20其中PF和EF维数为5.随机梯度下降为最小批次和adadelta更新规则适用于训练和测试过程。我们设置p=0.95 e=1e-6.对于退出操作，我们设置rate=0.5 ，我们使用skip-gram进行在NYT语料。