基于深度信念网络的事件识别

最新推荐文章于 2025-02-28 00:17:34 发布

阳光总在风雨后1127

最新推荐文章于 2025-02-28 00:17:34 发布

阅读量1.3k

点赞数

分类专栏：事件抽取

本文链接：https://blog.csdn.net/qq_32037669/article/details/82349897

版权

该文提出了一种基于深度信念网络的事件识别模型，通过数据预处理、特征输入，包括词性、依存语法、长度、位置、与核心词距离和词频等6个方面的特征表示，构建混合监督的深度信念网络。实验表明，增加RBM层数和语义特征抽象层可以提高事件识别性能，但层数过多会导致性能下降和训练时间增加。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一．论文简述

本文通过特征分析的方法，对文本中的词从6个方面进行特征表示并且生成特征向量，最后由深度信念网络来分析特征向量并给出识别结果。本文提出的模型不仅可以直接用于事件识别，还可以用来处理其他事件要素的识别，最终实现基于深度学习的事件以及相关要素的自动标注。

二．算法具体实现步骤

2.1 数据预处理

图1 数据预处理流程图

2.2 神经网络的特征输入

（1）词性抽象层（L1）：通过对CEC2.0中触发词的词性统计分析，我们发现触发词的词性分布集中很高，主要以动词和名词为主，主要有84%是动词，14%是名词，因此将词性作为抽象特征层能够提高触发词识别的准确性。

词性抽象层特征表示：LTP标注的词性总共有26种，每个词对应一个长度为26维的向量，向量元素中只有一个为1。

（2）依存语法抽象层（L2）：依存语法认为句子中的述语动词是支配其他成分的中心，而它本身却不受其他任何成分的支配，所有的受支配成分都以某种依存关系从属于其支配者。依存语法直接描述词与词之间的语义角色关系，具有非常高的语义表现性。触发词作为句子中信息量最大、表达信息最清晰的词，在句子中所扮演的角色在一定意义上就如同依存语法中述语动词。通过对 CEC2. 0 中的触发词依存语法的统计分析，我们发现 62% 的触发词在句子中的依存语法角色是head，18%为动词宾语。依存语法中的述语动词和句子中的触发词大多情况下是一致的。

依存语法抽象层特征表示: 在该特征层中，向量维度为14，表示14种依语法属性。所以每个词对应一个长度为14维的向量，向量元素只有一个为1。

（3）长度抽象层( L3) : 通过对CEC2. 0 中的所有语料中触发词长度进行分析，81% 的触发词长度为2，12%的长度为1。可见触发词的长度特征集中度较高，非常适合作为识别触发词的特征。

（4）触发词位置层（L4）：索引是词在句子中的位置特征，该特征会