基于深度信念网络的事件识别

该文提出了一种基于深度信念网络的事件识别模型,通过数据预处理、特征输入,包括词性、依存语法、长度、位置、与核心词距离和词频等6个方面的特征表示,构建混合监督的深度信念网络。实验表明,增加RBM层数和语义特征抽象层可以提高事件识别性能,但层数过多会导致性能下降和训练时间增加。
摘要由CSDN通过智能技术生成

一.论文简述

        本文通过特征分析的方法,对文本中的词从6个方面进行特征表示并且生成特征向量,最后由深度信念网络来分析特征向量并给出识别结果。本文提出的模型不仅可以直接用于事件识别,还可以用来处理其他事件要素的识别,最终实现基于深度学习的事件以及相关要素的自动标注。

二.算法具体实现步骤

2.1 数据预处理

                                                                                    图1 数据预处理流程图

2.2 神经网络的特征输入

     (1)词性抽象层(L1):通过对CEC2.0中触发词的词性统计分析,我们发现触发词的词性分布集中很高,主要以动词和名词为主,主要有84%是动词,14%是名词,因此将词性作为抽象特征层能够提高触发词识别的准确性。

       词性抽象层特征表示:LTP标注的词性总共有26种,每个词对应一个长度为26维的向量,向量元素中只有一个为1。

     (2)依存语法抽象层(L2):依存语法认为句子中的述语动词是支配其他成分的中心, 而它本身却不受其他任何成分的支配,所有的受支配成分都以某种依存关系从属于其支配者。依存语法直接描述词与词之间的语义角色关系,具有非常高的语义表现性。触发词作为句子中信息量最大、表达信息最清晰的词, 在句子中所扮演的角色在一定意义上就如同依存语法中述语动词。通过对 CEC2. 0 中的触发词依存语法的统计分析,我们发现 62% 的触发词在句子中的依存语法角色是head,18%为动词宾语。依存语法中的述语动词和句子中的触发词大多情况下是一致的。

       依存语法抽象层特征表示: 在该特征层中,向量维度为14,表示14种依语法属性。所以每个词对应一个长度为14维的向量,向量元素只有一个为1。

    (3)长度抽象层( L3) : 通过对CEC2. 0 中的所有语料中触发词长度进行分析,81% 的触发词长度为2,12%的长度为1。可见触发词的长度特征集中度较高,非常适合作为识别触发词的特征。

    (4)触发词位置层(L4):索引是词在句子中的位置特征,该特征会

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值