学习视频来源
其他学习笔记
ACL搜索 “Event Extraction”可获得最新事件抽取的论文
介绍
信息抽取技术:实体抽取、消歧、关系抽取、事件抽取
事件抽取:现有kg主要以实体为核心,缺少事件知识
事件和事物是n对n关系,人们以事件为单位来认知世界
事件抽取与事件图谱的意义:丰富现有的知识图谱,支撑其他信息获取引擎
语义搜索、事件监控、检测相关事件(孟晚舟、华为5G、外交部发言相关)、预警风险事件(关联交易、黑铁事件)、梳理历史事件(事件长链条)
代表性应用:palantir
事件是发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。
不同的动作或者状态的改变代表不同类型的事件
同一个类型的事件中不同的元素代表了不同的事件实例
同一个类型的事件中不同粒度的元素代表不同粒度的事件实例
事件抽取:从自然语言文本中抽取出用户感兴趣的事件信息以结构化的形式呈现出来,如who、when、where、what
事件抽取子任务:
事件发现(event detection):从文本中发现事件触发词(event trigger),事件元素抽取(argument extraction),从文本中识别事件元素(event argument),判断元素扮演的角色(argument role)
MUC ACE KBP(2019)
事件图谱暂未记录在内。
特征层面:句法分析等NLP工具;ACL2015动态多池化
上下文中的实体信息有助于事件消歧,联合
对抗训练,学习实体标注知识,得到样本的表示网络–>事件发现需要的实体知识已经嵌入在表示网络中,进而完成事件发现。
训练数据生成和扩展:ACE2005,33类事件,599篇标注文档
运用FrameNet扩展预料(ACL2016):结构相似性,含义相似性
运用结构化的知识库自动生成预料(ACL2017):远距离监督
一个句子的多个元素会出现在不同的句子中(知识库中只有60%的事件实例包含所有的事件元素;只有0.02%的事件实例能在一句话中找到所有的事件元素)
事件触发词,核心元素(2个),进行回标,生成70k+。88.9%,85%。
多事件协同抽取:一句话的多个事件之间具有依存关系
句子级信息 vs 篇章级信息
《基于层次偏置标注网络和多粒度门控关注机制的多事件协同抽取》
— 双层标注,(标签O太多)把事件损失加大
篇章级金融事件抽取:输入是一篇文章
标注数据的缺失;
多个句子描述一个事件,一个事件的多个元素分布在不同的句子中
自动生成标注数据(触发词候选,利用现有知识库回标(实体和触发词扮演不同的角色);框架分句子级抽取(抽取事件触发词,实体)+篇章级抽取两部分(事件类型,有多少事件元素,事件元素角色,再识别事件主句,主句的事件元素,然后事件角色就从上下文提取)。
四类事件的性能,SEE的F1到了90%+,DEE的F1到了70%,篇章级的结果差很多。
找事件触发词:每个句子分类(负例采样的方法更好);序列标注(偏置的loss)。
总结
-
事件知识不可或缺
-
企业信息监控
-
风险信用控制
-
智能投顾
-
-
通用领域的事件抽取很难
- 大规模、高质量的训练数据
- 鲁棒的特征表示
-
限定域的事件抽取有可能取得不错的性能
- 文本类型受限
- 语言表示规律性较强,知识密集
-
未来工作
- 事件关系抽取
- 人机协同模式