一.论文简述
本文通过特征分析的方法,对文本中的词从6个方面进行特征表示并且生成特征向量,最后由深度信念网络来分析特征向量并给出识别结果。本文提出的模型不仅可以直接用于事件识别,还可以用来处理其他事件要素的识别,最终实现基于深度学习的事件以及相关要素的自动标注。
二.算法具体实现步骤
2.1 数据预处理
图1 数据预处理流程图
2.2 神经网络的特征输入
(1)词性抽象层(L1):通过对CEC2.0中触发词的词性统计分析,我们发现触发词的词性分布集中很高,主要以动词和名词为主,主要有84%是动词,14%是名词,因此将词性作为抽象特征层能够提高触发词识别的准确性。
词性抽象层特征表示:LTP标注的词性总共有26种,每个词对应一个长度为26维的向量,向量元素中只有一个为1。
(2)依存语法抽象层(L2):依存语法认为句子中的述语动词是支配其他成分的中心, 而它本身却不受其他任何成分的支配,所有的受支配成分都以某种依存关系从属于其支配者。依存语法直接描述词与词之间的语义角色关系,具有非常高的语义表现性。触发词作为句子中信息量最大、表达信息最清晰的词, 在句子中所扮演的角色在一定意义上就如同依存语法中述语动词。通过对 CEC2. 0 中的触发词依存语法的统计分析,我们发现 62% 的触发词在句子中的依存语法角色是head,18%为动词宾语。依存语法中的述语动词和句子中的触发词大多情况下是一致的。
依存语法抽象层特征表示: 在该特征层中,向量维度为14,表示14种依语法属性。所以每个词对应一个长度为14维的向量,向量元素只有一个为1。
(3)长度抽象层( L3) : 通过对CEC2. 0 中的所有语料中触发词长度进行分析,81% 的触发词长度为2,12%的长度为1。可见触发词的长度特征集中度较高,非常适合作为识别触发词的特征。
(4)触发词位置层(L4):索引是词在句子中的位置特征,该特征会