UCAS - AI学院 - 知识图谱专项课 - 第9讲 - 课程笔记

事件抽取

概述

  • 行业智能应用的基础
  • 知识图谱以实体为核心,边是实体间的关系,缺少事件知识
  • 事件抽取是信息抽取中的难点
    • 事件抽取依赖实体抽取和关系抽取
  • 事件:发生在某个特定时间点或时间段、某个特定的地域范围内,由一个或多个角色参与的一个或多个动作组成的是事情或状态的改变
    • 不同的动作或状态的改变代表不同类型的事件
    • 同一个类型的事件中不同的时间、不同的地点、不同的元素代表了不同的事件实例
  • 事件抽取任务:从自然语言文本中抽取出用户感兴趣的事件信息并以结构化的形式呈现出来
    • 触发词检测
    • 元素分类(参与者)
    • 属性分类(时态、模态等)
    • 上报性分类
  • 相关术语
    • 事件描述(指称项),自然语言描述
    • 事件触发词,事件动作的指示词
    • 事件元素
    • 元素角色,使动者,被动者
  • 评测和语料
    • MUC,预定义类别事件抽取,实体、属性、关系
    • ACE,指定类型时间,相关信息填入模板
    • TDT,监控事件的报道,并将同话题报道有效组织
  • 研究维度
    • 事件类别是否预定义
    • 抽取的方法
    • 文本粒度
    • 文本类型
    • 领域

限定类别事件抽取

  • 基于模式匹配的方法
    • 在一些模式指导下,通过模式匹配对某种类型事件进行识别和要素抽取
    • 平面模式:主要基于词袋等字符串特征构成模式
    • 结构模式:句子的结构信息,融入句法特征
    • Cons
      • 领域相关,可扩展性差
      • 需要人工标注
  • 有监督模式匹配方法
    • 事件模式从人工标注语料中获取
    • AutoSlog
      • 事件的大部分角色可以在某个短语的上下文中找到
  • 弱监督的模式匹配方法
    • 不需要对语料进行完全标注,而只需要人工对语料进行一定的预分类或者制定少量种子模式,由机器根据预分类语料或者种子模式自动学习事件模式
    • AutoSlog-TS
      • AutoSlog 系统需要对每句话以及句子中的相应实体进行标注
      • AutoSlog-TS 只需要标注句子是否包含了对应的事件即可,然后根据预分类数据自动学习抽取事件的模式,进而完成事件抽取的任务
  • 基于机器学习的方法
    • 特征向量方法
      • 获得各种有效的词法、句法、语义等特征,并有效集成,从而产生“词语出发事件”以及“候选事件元素扮演事件角色”的各种局部特征和全局特征
      • 基于句子级信息的方法,从句子中提取特征,最大熵、NB、SVM等方法
      • 融入篇章和背景信息的方法,句子级信息基础上更多地考虑篇章级信息和丰富的背景知识
      • 句子级特征(传统特征 + 多分类器)
        • 四个步骤(TD34类——AC36类——AC——RC)
        • 多层次特征,词法、WordNet、依赖关系、相关实体
      • 句子级特征 + 实体类型
        • 利用实体类别信息辅助事件抽取
        • 方法
          • 对ACE实体类型细分——细分事件
          • 训练:先用背景知识聚成小类,再人工为每个小类赋予时间类别标签,在小类数据上训练一系列SVM实体类型分类器
          • 测试:输入一个新句子,利用实体类型分类器对实体进行分类,进而把细粒度实体类别信息用于事件抽取
    • 结构预测方法
      • 视为结构预测问题
      • 建模事件的结构并挖掘反映事件的结构化信息及特征
      • 建模为依存树结构的预测问题:生物事件
      • 建模为自定义联合结构的预测问题:触发词和事件元素联合预测
      • 传统方法的问题
        • 事件抽取多步骤,错误传递
        • 未考虑触发词和事件元素之间的相互影响——同时考虑
        • 方法
          • 输入句子和其中的实体标注
          • 结构预测问题,首先进行触发词预测,若触发一类事件,在对每个实体逐一判断扮演的角色,BEAM Search
    • 神经网络方法
      • 合理设计网络结构,从而捕捉更多信息,更准确地进行抽取
      • 网络结构
        • CNN
        • RNN
        • MLN
      • 基于动态最大池化技术的CNN
        • 传统两类特征:词汇特征 + 句子特征
        • 传统词汇特征依赖人工,缺乏语义
        • 传统句子特征依赖NLP工具,因此错误传递
        • 两阶段多分类问题
          • 触发词分类——事件分类
          • 事件元素分类——事件触发词寻找事件元素
        • 动态CNN实现事件抽取
        • DMCNN结构
          • word-embedding learning
          • lexical-level feature representation
          • sentence-level feature extraction
          • argument classifier output
        • 动态分段最大池化
      • 基于有监督关注机制的多层感知机模型
        • 事件类别识别和事件角色识别
        • 只关注事件类别识别,希望利用训练语料中的事件角色信息辅助事件类别识别
        • 事件角色可以为事件识别任务提供重要线索
        • 显式利用事件角色进行事件识别的方法
        • 框架
          • 关注度:词向量 + 实体类型信息
          • 两类关注度叠加表示,事件角色会有相对更多关注度
          • 利用关注向量计算句子表示作为分类模型输入
          • 最大似然目标函数
        • 训练:分类模型和Attention都是有监督学习
        • 构建关注向量的策略
          • 只关注角色词
          • 关注角色及其周围词
      • 基于实体知识蒸馏和对抗训练的事件识别
        • 实体类型、位置、语义知识对于事件类型识别具有指征意义
        • 传统方法基于人工标注或者NER工具,有局限性
        • 基于对抗训练,学习文本中的实体知识,并嵌入样本的分布式表示
        • 在此基础上完成事件触发词的发现和事件类型的判别
    • 训练语料的问题:语料规模受限
      • 融合FrameNet的事件识别方法
        • 利用FrameNet中的框架及其标注例句扩充事件抽取训练集
        • FrameNet
          • 专家标注的语义框架资源
          • 层级组织结构
        • 结构相似性
          • 框架:一个词法单元——若干框架元素
          • 事件:一个触发词——若干事件角色
        • 含义相似性
        • 系统框架
          • 利用ACE预料训练,得到基础的事件识别模型
          • 利用基础模型在FrameNet数据上进行事件识别
          • 基于概率软逻辑,利用全局规则校正第二步识别结果,得到最终扩充语料
      • 基于世界知识和语言学知识的事件语料大规模自动生成方法
        • 无监督事件抽取方法:抽取的结果没有规范的语义标签,很难直接映射到现有知识库

        • 动机

          • 自动生成标注语料
          • 远距离监督方法在关系抽取中取得成功
        • 难点

          • 现有事件知识库缺少触发词信息——虚拟节点无法直接回标
          • 事件元素并不都是一定出现
          • 一个事件的多个元素可以出现在多个句子中
        • 方法

          • 利用世界知识和语言学知识
          • 自动生成大规模事件语料
          • 核心元素检测——触发词检测——触发词过滤和扩展——标注树自动生成——标注数据
          • 在这里插入图片描述
        • 核心元素检测

          • 角色显著性RS:反映了一个事件元素区分同一事件类型下不同事件实例的能力 R S i j = Count ⁡ ( A i , E T j ) Count ⁡ ( E T j ) RS_{ij} = \frac {\operatorname{Count}(A_i , ET_j)}{\operatorname{Count}(ET_j)} RSij=Count(ETj)Count(Ai,ETj)
          • 事件相关性ER:反映了一个事件元素区分不同类型的事件的能力 E R i = log ⁡ Sum ⁡ ( E T ) 1 + Count ⁡ ( E T C i ) ER_i = \log \frac {\operatorname{Sum}(ET)} {1 + \operatorname{Count}(ETC_i)} ERi=log1+Count(ETCi)Sum(ET)
          • 核心率KR:反映了一个事件元素在一个事件中的重要程度 K R i j − R S i j ⋅ E R i KR_{ij} - RS_{ij} \cdot ER_i KRijRSijERi
        • 事件触发词检测

          • 利用所有核心元素去Wikipedia中回标
          • 触发率TR: T R i j = T C F i j ⋅ T E T F i TR_{ij} = TCF_{ij} \cdot TETF_i TRij=TCFijTETFi
          • 触发词频率TCF: T C F i j = Count ⁡ ( V i , E T S j ) Count ⁡ ( E T S j ) TCF_{ij} = \frac {\operatorname{Count}(V_i, ETS_j)}{\operatorname{Count}(ETS_j)} TCFij=Count(ETSj)Count(Vi,ETSj)
          • 触发词时间频率TETF: T E T F i = log ⁡ Sum ⁡ ( E T ) 1 + Count ⁡ ( E T I i ) TETF_i = \log \frac {\operatorname{Sum}(ET)} {1 + \operatorname{Count}(ETI_i)} TETFi=log1+Count(ETIi)Sum(ET)
        • 事件触发词过滤和扩展

          • 去除噪声——FrameNet过滤噪声并扩展
          • frame ⁡ ( i ) = arg ⁡ max ⁡ j ( similarity ⁡ ( e i , e j , k ) ) \operatorname{frame}(i) = \arg \max_j (\operatorname{similarity}(e_i, e_{j, k})) frame(i)=argmaxj(similarity(ei,ej,k))
        • 标注数据的自动生成

          • 同时利用触发词和事件关键元素回标样本
      • 基于双语门控注意力机制的事件识别
        • 单语数据稀疏性问题
        • 单语存在歧义性问题
        • 利用多语信息缓解单语数据稀疏性(同一事件表达已知)和单语歧义性(互补信息)
        • 方法
          • 利用机器翻译获得单语数据的译文(质量已经够好)
          • 使用单语注意力机制和跨语言注意力机制分别对单语数据和跨语言数据进行建模
    • 多事件协同抽取
      • 一句话的多个事件之间具有依存关系
      • 句子级信息 + 篇章级信息
      • 基于层次偏置标注网络和多粒度门控关注机制的多事件协同抽取
      • 基于注意力图信息集成的多事件联合抽取
        • 联合抽取
        • 使用GCN进行句法图信息集成,捕获长距离时间依存关系
        • 方法
          • 使用图神经网络挖掘句子的句法图,建模事件之间的关联
          • 利用自注意力机制集成图信息
    • 篇章级金融事件抽取
      • 动机
        • 标注数据的缺失
        • 篇章级事件抽取
      • 篇章级远监督事件抽取
        • 引入金融知识库
        • 数据对齐——自动生成标注样本
        • 句子级事件抽取:双向LSTM+CRF,标注全句中的事件触发词和元素
        • 篇章级事件抽取:寻找事件描述主句,并从周围事件描述句子中补齐缺少的事件元素

开放域事件抽取

  • 特点:不预先定义事件类别和事件结构
  • 代表性方法
    • 基于内容特征的事件抽取方法
      • 文本表示:表述事件的句子、段落或文档进行预处理——统一特征形式
      • 事件聚类与新事件发现:基于文本表示,利用无监督方法对同类事件表述聚类,发现新事件
      • 代表性方法:组平均聚类
        • Top K 个词的TF-IDF 值
        • 组平均聚类算法
    • 基于异常检测的事件抽取方法
      • 不分析文本的内容,而是通过检测文本的异常发布情况进行事件识别
      • 核心思想
        • 重大事件的发生——新闻媒体或社交网络上大量的相关报道或讨论
        • 关于某一主题的报道或讨论突然增多——某一重大事件的发生
      • 代表性工作:Krumm2015,Cheng 2014,Weng2011
      • 开放域事件识别往往缺乏语义信息,难以结构化——人工标注赋予语义标签
  • 事件框架学习:基于模板的事件抽取系统
    • 在无监督事件聚类基础上,无监督地学习事件框架
    • 事件框架:描述一类事件的结构
    • 方法
      • 文本语料中抽取事件元素
      • 事件元素进行初步聚类
      • 对每个聚类结果,在搜索引擎中搜索类内的事件元素,将返回的文档作为扩充语料
      • 再聚类,结果作为事件框架——需要人工标记语义标签
  • 事件框架学习:大规模语料中生成事件框架
    • 从大规模语料中无监督地生成事件框架
    • 方法
      • 关系抽取获得大量三元组<arg1, rel, arg2>
      • 三元组在文档中的共现信息建立一个无向图,边权反应两个元组共现的可能性
      • 选取图中边权最高的一些点作为种子——事件的中心
      • Personalized PageRank算法求解和其最相关的点集——事件

事件关系抽取

  • 共指关系
  • 时序关系
  • 因果关系
  • 子时间关系
  • 事件共指消解联合学习模型
    • 动机
      • 传统方法先做事件检测,再做共指消解,有误差传递
      • 事件检测和事件共指可以互相提升
      • 事件检测和事件照应(可能存在共指关系的判断,辅助共指)相互提升
    • 方法:一个文档级别的条件随机场模型
      • 三个子任务:事件类型判别/照应判别/共指判别
  • 社交媒体上的因果解释分析
    • 因果检测:检测一个推文中是否存在因果解释
    • 因果解释识别:识别一个推文中包含因果解释的短语
    • 方法 P13
  • 事件关系:无监督学习叙事事件链
    • 特定场景下发生的一系列事件有多个参与者,有一个是主导参与者
    • 叙事事件链:围绕主导参与者发生的部分有序的一系列事件
    • 事件表示:主导参与者和事件指示词之间的句法角色表示事件
    • 基于事件表示,对候选事件进行聚类可得到叙事事件链
    • 事件之间相关性——互信息P17
    • 方法:将所有事件当做候选,选择候选中和给定的n个事件互信息之和最大的事件作为答案
  • 子事件预测
    • 从大规模历史事件中学习子事件序列知识,对子事件进行预测
    • 给定事件的已观测的子事件序列,预测下⼀个可能的子事件
    • 基于上下文相关的层次LSTM 的子事件预测
      • 将由词序列表示的每个⼦事件编码
      • 将子事件编码和相应的话题编码联合,输入到下⼀层的子事件序列编码
      • 用LSTM解码出来下⼀个子事件的词序列

事件抽取与事件图谱的相关应用

  • 金融领域的应用
    • 对篇章中的句子逐一分析事件类型和事件元素
    • 综合每个句子的分析结果,得到篇章级的事件抽取结果
  • 生成故事大纲
    • 一篇文章中多个事件
      • 输入一篇文章,将文章中的事件按时序排序
    • 一个事件在多篇文章
      • 从多篇文章中抽取同一事件的不同阶段
    • 社交媒体中的故事大纲生成
      • 给定一个关键词的查询,根据tweet消息生成故事大纲
  • 预测新事件
    • 预测自然事件
    • 预测股票事件
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值