事件抽取学习笔记

最新推荐文章于 2024-05-10 19:40:40 发布

mr_guo_lei

最新推荐文章于 2024-05-10 19:40:40 发布

阅读量1.1w

点赞数 2

分类专栏：发表论文之路文章标签：事件抽取文档 nlp 自然语言处理模式匹配

本文链接：https://blog.csdn.net/mr_guo_lei/article/details/78936910

版权

发表论文之路专栏收录该内容

1 篇文章 1 订阅

订阅专栏

通过自动化工具将电子文档中的基础信息->找到感兴趣的信息，自动提取
事件：某个时间，某个地域，一个或者多个角色，一个或者多个动作组成的一件事情。
事件抽取：事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件，并以结构化呈现给用户，

事件抽取任务分为：元事件抽取，主题事件抽取。
元事件：一个动作的发生或者状态变化，往往由动词驱动，也可以由能表示动作的名词或者其他磁性的次来触发，它包括改动做的主要成分（事件、地点、任务等）
主题事件：一类核心事件或者活动以及所有的与之直接相关的事件和活动，可以由一类元事件片段组成。

事件抽取包括自然语言/机器学习/模式匹配等多个学科

元事件抽取：
元事件抽取的主要研究方法有模式匹配和机器学习两大类
模式匹配在特定领域内能取得较高的性能，但移植性比较差
机器学习与领域无关，系统移植性较好

基于模式匹配的元事件抽取：
模式匹配方法是在一些模式的指导下进行时间的识别和抽取，模式主要用于指明构成目标信息的上下文约束环境，集中体现了领域知识和语言知识的融合，抽取时只需要通过各种模式匹配算法找出复合模式约束条件的信息即可
核心是抽取模式的构建
起初，模式通过手工方法来建立，但这种方法费时费力，需要用户具有较高的技能水平
现在为了方便快捷的获取模式，提高系统的可移植性，需要采用机器学习来自动获取模式
模式的自动获取，基于领域无关概念知识库的时间抽取模式学习方法GENPAM，用户只需要定义IE职务，无需提供种子模式和对预料分类和标注，系统能够自动的从未经分类和标准的预料中学习出IE模式

流程：句子文本->识别器->事件句->事件
事件句的一局：该句文本中包含时间地点人物动作主题等基本事件元素
事件触发词：动词或者介词为主

命名实体识别和事件抽取
命名实体是指的文本中具有特定意义的试题包括：人名地名机构明日起身份...等等具有实际意义的东西

事件的主要构成为事件元素，不同的事件的识别任务中的事件元素的类别不完全相同
常用的命名实体，时间动作，事件发生原因和引起的后果等|可以借助命名实体来识别事件句，也可以借助事件句的明显特征，先识别事件句然后识别命名实体

效果评测：
F = 2 *PR/(P+R)
C = Cmiss *L * Liar + Cfa * M * (1-Liar)
F为薇平均值 P为准确率 R为召回率
C为错误识别代价 L为丢失率 M为误报率 Cmiss为一次丢失的代价 Cfa为一次误报的代价
薇平均法通常多用于单一事件抽取任务中
话题追踪用错误识别代价

基于规则的方法首先建立事件或者事件句的末班或者本体实现事件抽取。这种方法多应用于事件句或者时间具有明显的特征，容易对其进行普通形式化描述
基于统计的方法一般将时间抽取问题转化为句子文本的分类问题，应用此类算法抽取时间的句子文本或者时间没有明显的特征，用基于机器学习的统计类算法得出事件句的模式特征，，实现时间抽取模式。HMM CRF VM ME

基于模式匹配的时间抽取的算法，通过手工或者自动建立的有关事件句特征形式化表示的末班指导实践抽取的方法--模式匹配
语义角色标注、事件本体法

语义角色标注法：将事件元素和相应的语义角色对应，并对事件元素定义试题，中心词磁性和关键词层次的予以约束
只要必要元素对应的予以角色全部出现，则认为匹配到了时间
实施者受试者时间动词

事件本体法：定义时间的实体元素组，事件类别和事件之间的关系，进而获得时间的特征项构件，最后基于时间特征项挖掘时间以及事件间的关系
事件间的关系：类关系/非类关系
费雷关系：组分关系，原因结果关系，跟随关系
事件实体元组：参与者，事件，地点，设备事件，事物参与者包括：实施者和受试者

触发词法：时间关键词法，通过对事件句的统计分析后发现，出现某类术语或者词汇的句子文本中事件句的概率非常高
1.专家基于经验构造2.通过已有词汇分析统计，提取事件触发词，手工构件

过程：事件类别识别ACE的8大类33中子类事件元素识别