ACL 2019 | 面向远程监督关系抽取的模式诊断技术

640


作者丨郑顺

学校丨清华大学交叉信息研究院五年级博士生

研究方向丨机器学习和信息抽取


640?wx_fmt=png


640?wx_fmt=png


研究动机


远程监督(Distant Supervision)可以为关系抽取任务自动地快速生成大量训练集。具体来说,远程监督是将知识库中的关系实例匹配到文本中,进而直接对实体对的文本描述赋予相应的关系类别。尽管能快速创建大量训练数据,这种“远程”的监督方式也引入了不可忽视的标注错误,比如下面这个的例子:


640?wx_fmt=png


1. 第一个句子的确描述了实体间具有“出生地”的关系,然而由于知识库的不完整性,相应的远程监督标签(DS Label)是一个假阴性(FN)的错误; 


2. 第二个句子其实并没有显示描述“出生地”这个关系,却因为“远程”的监督,而发生了假阳性(FP)的错误。 


近年来的一个研究热点是弱监督融合(Weak Label Fusion),即通过融合多种不同的弱监督信号来生成更高质量的训练标签,这些弱监督信号可以由远程监督、基于模式的标注等等产生。


尽管弱监督融合既能生成更高质量的标注又有较好的可解释性,但也存在一定的局限性:通常假定由人(领域专家)来提供具有关系指向性的模式规则,比如:符合模式“mayor ENTITY1:PER .* ENTITY2:CITY”的句子倾向于与“出生地”关系无关。


这种人工撰写模式的方式既有着较高的技能要求(学习模板撰写的语法,调试程序等),又需要较大的工作量(搜索关系描述的典型样例,查验模板的覆盖率、准确性、临界情况等),而且当迁移到一个新的关系领域时,这些繁杂的工作又需要相应的领域专家们再重复一遍。 


那么如何既能降低领域专家的技能要求和工作量,又能实现高效可解释的基于弱监督融合的训练数据生成呢? 


本文就是沿着此方向的一次探索,我们对这个问题的核心观察是:1)远程监督可以让模型学到大致的关系指向信息;2)对领域专家来说,相对于编写模式,判断样本是否符合特定的关系类别是更加简单高效的。


基于这些观察,我们提出了一套神经模式诊断框架(DIAG-NRE)来桥接远程监督与弱监督融合,其大体流程如下图所示。


640?wx_fmt=png


神经模式诊断框架


我们提出的神经模式诊断框架包含两个核心模块:模式抽取模式精炼。 


<

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值