ACL 2019 | 面向远程监督关系抽取的模式诊断技术

最新推荐文章于 2023-01-09 13:29:39 发布

PaperWeekly

最新推荐文章于 2023-01-09 13:29:39 发布

阅读量666

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/94794294

版权

本文介绍了一种神经模式诊断框架（DIAG-NRE），旨在解决远程监督关系抽取中的错误标签问题。通过强化学习抽取模式，并进行模式精炼，减少假阴性和假阳性的标注错误。实验表明，DIAG-NRE 在多个关系任务上提高了性能，有效地抑制了标签噪声。

摘要由CSDN通过智能技术生成

640

作者丨郑顺

学校丨清华大学交叉信息研究院五年级博士生

研究方向丨机器学习和信息抽取

640?wx_fmt=png

640?wx_fmt=png

研究动机

远程监督（Distant Supervision）可以为关系抽取任务自动地快速生成大量训练集。具体来说，远程监督是将知识库中的关系实例匹配到文本中，进而直接对实体对的文本描述赋予相应的关系类别。尽管能快速创建大量训练数据，这种“远程”的监督方式也引入了不可忽视的标注错误，比如下面这个的例子：

640?wx_fmt=png

1. 第一个句子的确描述了实体间具有“出生地”的关系，然而由于知识库的不完整性，相应的远程监督标签（DS Label）是一个假阴性（FN）的错误；

2. 第二个句子其实并没有显示描述“出生地”这个关系，却因为“远程”的监督，而发生了假阳性（FP）的错误。

近年来的一个研究热点是弱监督融合（Weak Label Fusion），即通过融合多种不同的弱监督信号来生成更高质量的训练标签，这些弱监督信号可以由远程监督、基于模式的标注等等产生。

尽管弱监督融合既能生成更高质量的标注又有较好的可解释性，但也存在一定的局限性：通常假定由人（领域专家）来提供具有关系指向性的模式规则，比如：符合模式“mayor ENTITY1:PER .* ENTITY2:CITY”的句子倾向于与“出生地”关系无关。

这种人工撰写模式的方式既有着较高的技能要求（学习模板撰写的语法，调试程序等），又需要较大的工作量（搜索关系描述的典型样例，查验模板的覆盖率、准确性、临界情况等），而且当迁移到一个新的关系领域时，这些繁杂的工作又需要相应的领域专家们再重复一遍。

那么如何既能降低领域专家的技能要求和工作量，又能实现高效可解释的基于弱监督融合的训练数据生成呢？

本文就是沿着此方向的一次探索，我们对这个问题的核心观察是：1）远程监督可以让模型学到大致的关系指向信息；2）对领域专家来说，相对于编写模式，判断样本是否符合特定的关系类别是更加简单高效的。

基于这些观察，我们提出了一套神经模式诊断框架（DIAG-NRE）来桥接远程监督与弱监督融合，其大体流程如下图所示。

640?wx_fmt=png

神经模式诊断框架

我们提出的神经模式诊断框架包含两个核心模块：模式抽取与模式精炼。

<

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。