【论文学习ATLOP】Document-Level Relation Extraction

最新推荐文章于 2023-04-07 20:04:17 发布

Eve_Mercedes

最新推荐文章于 2023-04-07 20:04:17 发布

阅读量953

点赞数

分类专栏：论文学习

本文链接：https://blog.csdn.net/Ahighmore/article/details/119389269

版权

6 篇文章 0 订阅

订阅专栏

【论文学习ATLOP】Document-Level Relation Extraction with Adaptive Thresholding and Localized Context Pooling（2020）

摘要创新点

DocRED 一个大规模RE数据集。
CDR和GDA 生物医学领域的数据集。

一个文档包含多个实体对，需要一次对他们的关系分类，还要关注实体对出现的上下文的部分。而且一个实体对在文档中可以出现多次。

文档级RE的这种多实体（分类的多个实体对）和多标签（特定实体对的多个关系类型）属性让其抽取更为困难。

解决多实体问题 ，大多构建的是文档图，然后使用图神经网络去推理；
多标签问题 ，目前的方法是将其简化为二元分类问题，应用全局阈值以获得关系标签，不是最佳的，会有决策错误；这里，提出了自适应阈值技术，将可学习的阈值类代替全局阈值。

Encoder
在给定文档d，将提及的开头和结尾插入一个特殊符号*，来标记实体提及的位置，然后将文档输入到一个预训练的语言模型中获得上下文嵌入。所有的实体对的分类基于相同的上下文嵌入，带*的为提及嵌入，{m} 中的实体e ，最大池化得到实体嵌入h。

Binary Classifier
给定实体对的嵌入（hes,heo) ,然后映射到隐藏状态z，然后线性层后非线性激活，计算概率，得到P。
为了减少参数数量，因为在不同的实体对中，一个实体的表示是相同的，使用双线性组，分成k个相等大小的组。

RE 分类器需要进行阈值处理才能转化为关系标签。因为不同的实体对或类别，模型会有不同的置信度，一个全局阈值是不够的。关系的数量各不相同，相同的概率不意味着实体对的相同。

将实体对T=（es，eo）的标签分为两个子集，正类PT和负类NT。
TH类的损失函数

本地化上下文图示实体对e令牌加权化形成局部上下文c，只有对两个实体都很重要的令牌（浅黄色）才会获得更高的权重。

Analysis of Thresholding

训练后的每类阈值会导致开发集的严重过拟合。

关注