【论文学习ATLOP】Document-Level Relation Extraction

【论文学习ATLOP】Document-Level Relation Extraction with Adaptive Thresholding and Localized Context Pooling(2020)

摘要创新点

  1. 自适应阈值,代替原本的多标签分类的全局阈值。
  2. 局部上下文池化,将注意力从预先训练的语言模型转移到定位对确定关系有用的相关上下文。
    用来解决多标签多实体的问题。

数据集

DocRED 一个大规模RE数据集。
CDR和GDA 生物医学领域的数据集。

文档级RE

一个文档包含多个实体对,需要一次对他们的关系分类,还要关注实体对出现的上下文的部分。而且一个实体对在文档中可以出现多次。

文档级RE的这种多实体(分类的多个实体对)和多标签(特定实体对的多个关系类型)属性让其抽取更为困难。
  1. 解决多实体问题 ,大多构建的是文档图,然后使用图神经网络去推理;

  2. 多标签问题 ,目前的方法是将其简化为二元分类问题,应用全局阈值以获得关系标签,不是最佳的,会有决策错误;这里,提出了自适应阈值技术,将可学习的阈值类代替全局阈值。
    引用TH 类分离正类和负类

Enhanced BERT Baseline

Encoder
在给定文档d,将提及的开头和结尾插入一个特殊符号*,来标记实体提及的位置,然后将文档输入到一个预训练的语言模型中获得上下文嵌入。所有的实体对的分类基于相同的上下文嵌入,带*的为提及嵌入,{m} 中的实体e ,最大池化得到实体嵌入h。

Binary Classifier
给定实体对的嵌入(hes,heo) ,然后映射到隐藏状态z,然后线性层后非线性激活,计算概率,得到P。
为了减少参数数量,因为在不同的实体对中,一个实体的表示是相同的,使用双线性组,分成k个相等大小的组。

Adaptive Thresholding

RE 分类器需要进行阈值处理才能转化为关系标签。因为不同的实体对或类别,模型会有不同的置信度,一个全局阈值是不够的。关系的数量各不相同,相同的概率不意味着实体对的相同。

将实体对T=(es,eo)的标签分为两个子集,正类PT和负类NT。
TH类的损失函数

Localized Context Pooling

本地化上下文图示实体对e令牌加权化形成局部上下文c,只有对两个实体都很重要的令牌(浅黄色)才会获得更高的权重。

Analysis of Thresholding

训练后的每类阈值会导致开发集的严重过拟合。

链接: 论文地址.

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值