作者丨郑顺
学校丨清华大学交叉信息研究院五年级博士生
研究方向丨机器学习和信息抽取
研究动机
远程监督(Distant Supervision)可以为关系抽取任务自动地快速生成大量训练集。具体来说,远程监督是将知识库中的关系实例匹配到文本中,进而直接对实体对的文本描述赋予相应的关系类别。尽管能快速创建大量训练数据,这种“远程”的监督方式也引入了不可忽视的标注错误,比如下面这个的例子:
1. 第一个句子的确描述了实体间具有“出生地”的关系,然而由于知识库的不完整性,相应的远程监督标签(DS Label)是一个假阴性(FN)的错误;
2. 第二个句子其实并没有显示描述“出生地”这个关系,却因为“远程”的监督,而发生了假阳性(FP)的错误。
近年来的一个研究热点是弱监督融合(Weak Label Fusion),即通过融合多种不同的弱监督信号来生成更高质量的训练标签,这些弱监督信号可以由远程监督、基于模式的标注等等产生。
尽管弱监督融合既能生成更高质量的标注又有较好的可解释性,但也存在一定的局限性:通常假定由人(领域专家)来提供具有关系指向性的模式规则,比如:符合模式“mayor ENTITY1:PER .* ENTITY2:CITY”的句子倾向于与“出生地”关系无关。
这种人工撰写模式的方式既有着较高的技能要求(学习模板撰写的语法,调试程序等),又需要较大的工作量(搜索关系描述的典型样例,查验模板的覆盖率、准确性、临界情况等),而且当迁移到一个新的关系领域时,这些繁杂的工作又需要相应的领域专家们再重复一遍。
那么如何既能降低领域专家的技能要求和工作量,又能实现高效可解释的基于弱监督融合的训练数据生成呢?
本文就是沿着此方向的一次探索,我们对这个问题的核心观察是:1)远程监督可以让模型学到大致的关系指向信息;2)对领域专家来说,相对于编写模式,判断样本是否符合特定的关系类别是更加简单高效的。
基于这些观察,我们提出了一套神经模式诊断框架(DIAG-NRE)来桥接远程监督与弱监督融合,其大体流程如下图所示。
神经模式诊断框架
我们提出的神经模式诊断框架包含两个核心模块:模式抽取与模式精炼。
<