基于自适应损失函数的句子级远程监督关系抽取

摘要: 远程监督关系抽取是一种关系抽取方法,现有方法主要采用多实例学习,在具有相同实体对的样例包上进行关系抽取。但是,包级方法只能缓解却并不能完全解决错误标签问题。基于此,文中首先分析了干净数据和噪声数据的分布,提出了一种新的自适应损失函数;在此基础上,提出了一种基于自适应损失函数的句子级远程监督关系抽取方法。在公开数据集NYT-10以及基于TACRED的合成数据集上的实验结果表明:文中提出的方法优于对比文献中的方法,能够更有效地区分错误标签噪声样例和干净样例,提高了句子级远程监督关系抽取的准确率。

  • 关键词: 
  • 自然语言处理  /  
  • 信息抽取  /  
  • 关系抽取  /  
  • 远程监督  /  
  • 噪声分离  /  
  • 噪声标注  /  
  • 负训练  /  
  • 自适应损失函数  

关系抽取(relation extraction, RE)是信息抽取的主要子任务之一,旨在从一段文本中抽取出两个实体名词之间存在的关系信息,将半结构化、非结构化文本数据转化为结构化的实体关系三元组以用于各种下游任务中,如知识图谱的构建与补齐、问答系统、机器翻译等[1]。为解决人工标注大规模数据集成本过高的问题,Mintz等[2]提出了远程监督关系抽取(distance relation extraction)的方法。为缓解远程监督带来的错误标签噪声问题,Riedel等[3] 提出多实例学习方法(multi-instance learning, MIL)进行包级别的关系抽取。但采用包级关系抽取会导致无法明确与包中每个句子映射的句子级标签,限制了在一些需要句子级关系的下游任务中的应用[4-5]。之后的几项研究[6-7]也验证了包级关

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

罗思付之技术屋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值