这是一篇可能不出名,但是很实用的事件抽取论文,也很契合笨妞当下的使用。原文来自于这里,代码也比较好用。以下是翻译记录。
********************************************分割线***********************************************
一、概述
事件抽取是文本挖掘的一种常见应用,它提取句子甚至是通道的主要特征。我们的实验主要集中在从独立的句子中提取汉语事件。虽然事件抽取技术相对成熟,但大多数技术都需要一个大的标记语料库。然而,在实际问题中,人工生成大量的训练数据和每种训练数据都是困难的。在实验中,我们测试了汉语中约2000句事件抽取方法的性能,并针对数据不足的汉语事件抽取问题提出了一些解决方案。
二、基本介绍
事件提取被分为数据驱动的事件提取和知识驱动的事件提取,这使得一些技术组合了数据和知识信息。由于语言模式的限制,知识驱动的事件提取确实能够减少大尺寸数据的需求, 但它很难处理语法不同的各种语言语料库。 此外,一些常用语的用法也可能与语法矛盾。 考虑到这些问题,数据驱动的事件提取在汉语事件提取中可能是一个更灵活的选择,因为汉语的语言模式与英语完全不同。
不幸的是,当无法得到一个带有任何主题的大标记语料库时,这可能会使传统的数据驱动事件抽取在数据不足的情况下不能很好地工作:在训练时模型通常在如此小的语料库过度匹配,即使是朴素贝叶斯在某些情况下也表现最好。
我们对不同类型的数据驱动事件抽取技术的性能进行了深入的评价,分析了每种方法的优缺点,并针对训练数据的不足提出了一些解决方案。
首先,为了提高模型的泛化能力,针对训练数据的不足,选择合适的平滑方法是非常重要的。
第二,虽然很难得到一个大的标注语料库,但可以获得一个庞大的词汇词典,它可以为我们提供词性部分(Pos),而pos信息也可以帮助我们的模型的性能。
第三,当我们处理未见数据时,插值作为一种补充,pos信息在插值中起着重要的作用。
三、理论基础
A.隐马尔可夫模型[2]
假设oi和hi是观察节点和隐藏节点。
隐马尔可夫模型是一种动态贝叶斯网络,它假定了观测节点和隐节点之间的依赖关系。
从训练数据中可以估计出发射概率p(OJ JHI)和跃迁概率p(HJ JHI),从而构造出整个参数空间。
当我们从观测结果中预测隐藏链时,我们可以使用最大似然估计器:
B.条件随机场[2]
基于上述,隐马尔可夫模型主要关注后向隐节点和相应的观察节点,但这种依赖假设过于简单,难以描述句子信息,因此需要考虑建立隐链与观察节点之间的关系:
从方程(4)中我们发现,与HMM相比,参数的推理过程是相反的,在机器学习中,观察链和后向节点成为隐藏节点的特征,而后向节点也不知道,而且由于概率设置,条件随机场采用对数线性模型,从而可以得到每个隐藏节点的概率,然后从上面导出损失函数:
其中,我是模型的特征提取器,z(H)是规范化的。在这种情况下,我们可以学习参数!,CRF使用L-bgfs来最小化损失函数,然后返回优化的!
C.平滑和泛化能力[3]
由于数据不充分,训练数据中的词汇集可能无法覆盖测试数据中的某个词,从而导致发射矩阵中的概率为零,并导致一些错误(零点的转换使正向概率都为零,logp溢出),需要考虑到我们的发射矩阵的光滑性,插值是平滑概率分布的理想方法,除了朴素Bayes项外,还需要考虑。另一个问题是,过渡矩阵过于粗糙,如从“o”到“o”的过渡量太大,以至于当事件-词汇量不够时,隐藏的链可能全部收敛到“o”,这就提出了惩罚这类过渡的可能性的想法。
此外,为了避免概率矩阵中的零点,拉普拉斯平滑似乎是一个合理的选择,但是,拉普拉斯平滑的参数应该谨慎选择,这将在下一节中介绍。
D.事件提取中还有什么?
- 触发器:在一个简单的句子中,只有一个触发器,这可能是隐藏链的限制。 例如,HMM中的概率可以被编辑为:
其中h1=‘O’;HK是唯一不等于‘O’的组件。
- 参数:句子中的参数可能比触发器更难预测,因为参数数目不固定,增加了预测的复杂性。我们在动态Bayes网络中选择了HMM模型中的Viterbi算法,简单地说,当状态具有马尔可夫条件时,全局最短路径构成一组局部最短路径,从而构造局部最短路径。然后通过反向计算得到全局最短路径,这意味着不需要计算全局视图中的所有组合。由于页面的限制,而Viterbi算法的细节不是我们所关注的,因此我们跳过了这一部分。
- 词性部分:获取特定词的词表并不困难,因为任何语言都有不同的词典,所以当我们没有足够的标记数据进行事件抽取时,就可以从字典中获取信息。由于字典类型的限制,我们只尝试在实验中添加pos信息,从而提高了模型的性能。
四、结果分析
A. 基线模型
虽然我们有几种类型的方法,它们都是基于贝叶斯规则和一些条件假设,这意味着朴素贝叶斯方法可以是上面任何方法的基线,每个结果比基线拟合差。
B. HMM
当我们使用HMM方法时,自然会对过拟合的风险持谨慎态度,然而,虽然我们使用添加
epsilon来维护排放矩阵中的信息,但结果也不令人满意,甚至比基线结果还要糟糕,因此我们首先在HMM中加入朴素Bayes插值项,这可以增加模型的泛化能力。
在HMM中加入朴素Bayes插值项,参数的结果有了很大的提高,一般结果优于HMM和朴素Bayes,证明了插值和HMM的有效性。
此外,当我们在模型中加入pos项时,触发结果f1评分可以明显提高,这可能是触发词和动词之间对应的结果,对于参数,f1得分类型和校正结果的平衡可以通过新的插值得到更好的结果。(2)从图2中可以发现pos类型和触发器比pos类型和参数更相关,这可以帮助我们获得更好的结果。阐述了采用PoS插值方法进行模型改进的原因。不幸的是,当我们提高F1评分时,争取的类型却减少了,因为pos信息不能提供类型,在我们的设置中,当句子中只有一个动词时,模型只会附加一个“t运动”,这是这样的状语。事实上,如果我们有更多信息的字典,情况可能会更好。
注释:为什么Laplace平滑不起作用,什么时候起作用:在我们的实验中,发射矩阵中的“加1”光滑使得结果非常糟糕:输出可能收敛于所有‘o’类型。因此,我们使用的加法比1小得多(0.1或更小),这是因为训练数据的大小不够大,“1”拉普拉斯的平滑可能是如此之大,例如,如果(‘Run’),)只出现一次,当添加1时,p(‘run’,‘o’)可以是p(‘run’,‘t motions’)/2,而(‘o’,‘o’)的转换比(‘o’,‘o’)大得多,)。因此,在数据设置不足的情况下,应该用Add-epsilon替换Add-one光滑,这样可以保持原始估计的分布。(3)根据图(3),当我们在s中使用传统的加载项时,可以保持原始估计的分布。
然而,当我们使用pos插值时,pos中的Laplace平滑确实有效,这是因为pos的自由度比词汇表小得多,因此,在使用Laplace平滑之前,要注意数据集相对于参数矩阵的大小,后者决定了Ad-k平滑的系数。
C. CRF
CRF中的概率依赖关系比HMM要复杂得多,这意味着CRF具有更大的潜在能力来描述隐藏链和观察链之间的关系,我们在实验中使用了CRF。
在我们的实验中,由于训练数据的不足,原始CRF往往会过度拟合,但是当我们添加pos信息时,情况有了很大的改善,触发预测的性能比原来的要好得多,因为CRF模型没有限制触发器出现的次数,所以性能可能比HMM差。(也就是说,当HMM使用维特比算法时,F1的分数也是72%)。
关于CRF模型的特征选择,我们对几种类型的特征选择进行了评价。
从表中我们发现,低维特征甚至有很好的效果,证明了连通观测和隐节点具有很强的对应性,类似于memm[2],并且输入了前向信息. 与HMM相比,HMM假设隐节点是起因,而CRF假设观测节点是起因,但它们在数据集中共享相似的信息。
五、结论和讨论
根据我们的实验,很明显,当我们没有足够的数据时,通常会发生过拟合,例如HMM和CRF被不同层次的影响所削弱。但是,除了意识到过度拟合现象之外,解决这个问题的方法更重要。因此,我们提出了几种解决数据不足问题的方法:
1)使用更多的信息,这些信息可以很容易地访问:例如词组,这确实可以提高性能,特别是用于触发预测。
2)在特定问题中使用更多的限制:例如句子中的触发器数。
3)采用适当的平滑方法,如低层次特征的插值,并对加-k值保持谨慎(参数差可能会减少主要信息)。
1和2种建议是一种低层次知识驱动的事件抽取,以改善原始特征表达,而底层限制在所有语言中都很常见。第三种是机器学习现象,在具体问题中需要认真对待。