论文阅读:Improving Temporal Relation Extraction with a Globally Acquired Statistical Resource

Improving Temporal Relation Extraction with a Globally Acquired Statistical Resource


Statistical Resource)

  • 作者:Qiang Ning, Hao Wu, Haoruo Peng, Dan Roth
  • 时间:2018

解决的问题

依旧是时间关系识别!作者本文的思路是考虑该任务是否能够从外部资源中获益,类似于目前自然语言处理的许多任务都在寻求从知识图谱中获益一样。只不过知识图谱很多,而时间关系识别相关的外部资源较少。

难点及贡献

  • 难点:时间关系识别任务!个人感觉相对来说还算是一个比较冷门的研究领域,文章也比较少,前人的不少研究都是基于很多手工设计特征的方式进行,在目前深度学习遍地跑的时代,如何从中获益,是仁者见仁智者见智的。当然该任务也是一直受制于数据标注十分困难以及数据质量不是特别的!理想等原因,任务效果的提升一直是慢热的。
  • 贡献:作者构建了一个概率知识库,该知识库有益于许多时间关系识别模型。
  • 灵感来源:作者发现了一个很有意思的现象,把一个句子中的两个事件词去掉,仅仅凭借上下文信息是没有办法推测出两个事件词的时间先后关系的,而且即使是相同的上下文,不同的事件对也可存在不同的时间关系。因此可以得出结论:事件词本身蕴含了许多时间信息,它可以为我们提供一定的先验知识,使我们做出时间关系判断的必要部分。
    但是部分前人在时间关系识别中的研究都是很大程度上依赖于上下文信息的。
    综上,可以发现前人研究中都忽略了事件词本身所具有的不依赖于上下文的时间关系(反过来看不一样的上下文会导致相同事件队不一样的时间关系吗。。嗯。。废话)。

主要内容

在这里插入图片描述
作者将这个概率知识库称为Temprob,上图给出知识库中简单的例子
很显然上述知识库需要以下两步:

  1. 抽取事件:事件通常被理解为一个与参与者相关的动作!所以作者使用语义角色标记的方法来提取事件,并且只关注谓语动词而不管名词。
  2. 抽取关系:
  • 在抽取出事件词之后,事件词两两成对,并判断事件关系,所用到的特征如下:
    • 词性:包括事件词以及周围3个词的
    • 事件词之间的距离
    • 事件提及之间的情态动词
    • 事件提及之间的时间连接词
    • 两个事件词是否在wordnet的同义词集上拥有相同的同义词
    • 输入事件提及是否具有从WordNet派生出来的公共派生形式
    • 分别包含 覆盖每个事件词的介词短语 的首词
  • 训练:
    • 数据来源:timebank-dense
    • 保留TBDENSE中由动词组成的关系标注(大概占总标注的85%)
    • 事件词分布在不同的句子中,所以存在跨多个句子的关系(TBDENSE只存在单个句子或者两个相邻句子)所以构建两个分类器一个负责单句的关系判断,一个负责相邻句子的跨句关系判断
  • 语料库:纽约时报近20年的文章,共提取出51k个事件词和80M个时间关系
  • 有趣的统计:首先介绍两个概念,时间(temporally)上的先后以及物理(physically)出现上的先后。
    • 极端情况:知识库中会出现许多事件对的时间关系(before,after)概率在90以上。概率的计算就是简单的频率统计。作者发现许多TBDense中的事件对的时间顺序和物理出现顺序是不一致的,也就是说不能仅仅考虑物理出现顺序。
    • 分布:作者统计得到了对于某一事件词V,在V之前的以及之后的事件词的概率分布,概率计算如下
      在这里插入图片描述
      分母对应事件词V所有具有before的事件对计数,分子为V’在V之前的计数。
      例子:
      在这里插入图片描述

实验结果

  1. 知识库的质量分析:前面简单的统计概率,其正确性是否能够保证,这一小节作者做出了验证。作者将知识库中的统计概率假设为某模型的预测概率,并设置概率阈值,再将其与数据库TBDense中的真实标签作对比,看是否一致。在这里插入图片描述
    为了结论的一般性,作者还是用了其他数据集进行验证,结果类似不再赘述。
  2. 提升时间关系抽取的效果
  • 作者从两个方面证明从该知识库中获得的先验分布的有效性:
    • 作为局部方法中的特征:在关系分类模型的特征中加入两类特征,一个是ηb(before,after的概率分布),一个是所有标签的先验概率分布在这里插入图片描述结果如下:在这里插入图片描述
    • 作为全局方法中的正则化条件:在目标函数中加入标签的先验分布作为正则项。
      在这里插入图片描述
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值