【关系抽取】A Novel Cascade Binary Tagging Framework for Relational Triple Extraction

最新推荐文章于 2023-03-08 14:37:30 发布

nlp_xiaobai

最新推荐文章于 2023-03-08 14:37:30 发布

阅读量7.4k

点赞数 20

文章标签：自然语言处理 tensorflow 深度学习神经网络机器学习

本文链接：https://blog.csdn.net/drewings/article/details/106889080

版权

A Novel Cascade Binary Tagging Framework for Relational Triple Extraction

2020ACL 吉林大学出品

资源：https://github.com/weizhepei/CasRel

Abatract

作者为了解决三元组重叠（overlap)的情况，提出了新的关系抽取的方法，cascade binary taging framework(CasRel)，和传统的关系抽取不同，传统的关系抽取是通过两个实体来抽取（离散的）关系标签，但在这里通过CasRel框架来抽取实体及实体间的关系（这部分后面仔细介绍）,最终效果得到了很大的提升。

Introduction

首先作者提出了问题，传统的关系抽取是不能很好的解决三元组重叠，上图：

从图中可以发现，传统的关系抽取针对Normal类型的数据还是可以的，但是针对EPO和SEO的情况就不怎么行了，首先说下EPO，可以看出同一对实体，在传统的关系抽取下只能抽取出一种关系，比如：要么是Act in 或者 Direct movie的关系，然后说下SEO,按说传统的关系抽取也可以，但是数据分布不均衡，比如有的关系标签很多，有的很少，有的正例很多，有的负利很多，这样导致传统模型不能很好的进行学习。尽管像这样的问题已经有人做了很多研究，但是仍然存在很多的问题，他们都把每个实体对的关系看作离散的，这样导致会导致模型学习很困难，原因有两点：第一点，也是上面所说的，数据分布不均衡，第二点，针对重叠的标签，如果在训练数据很少的情况下，分类器很难去正确的分类。因此作者提出了CasRel框架，把传统形式的关系分类 $f(s,o)\rightarrow r$ （其中s表示subject，o表示object）换成了 $f_{r}(s)\rightarrow o$ 这种形式的，分别训练不同关系的模型，通过s来预测o，比如：如果Figure1中EPO所示，如果s=Quentin Tarantino， $f_{Act in}(Queentin Tarantino)=Django Unchained$ ，那么我们就可以判断Quentin Tarantino 和Django Unchained的关系是Act in的类型。

Related Work

这部分就不多说了。

The CASREL Framework

这里仔细讲下CasRel这个框架，灵感来源于下面这个公式（3）：

公式也是一步一步拆解的，该公式表达的是求训练集D中每句话Tj中所含的（s,r,o)的最大似然估计。可以看最终的公式（3），可以看出， $p(s\mid x_{j})$ 表示在 $x_{j}$ 话中，s存在的概率，即：在第j个句子中预测s。 $p_{r}(o\mid s,x_{j})$ 表示在 $x_{j}$ 和s条件下，o出现的概率，即：在j个句子中，已经知道s的情况下，去预测o。因此整个方案：首先去找到所有的主客体s,然后根据模型找副客体o,找到就可以直接知道实体及关系了，而且这个binary tagging 方案可以一次抽取多个三元组出来。主要模型图如下图2所示：

在这里说下，为啥叫级联（cascade)，因为你可以看成两个层级，第一层就是bert输入到subject输出，第二层就是bert输出的中间层（紫色）到object的输出，在这里注意下，这里有多少个关系就有多少个起始位置信息。模型比较简单，在这里就不再多说了，那么这篇论文也就到这吧，如果有什么说的不对的，欢迎指出！拜拜！

nlp_xiaobai

关注

20
点赞
踩
29

收藏

觉得还不错? 一键收藏
5
评论
【关系抽取】A Novel Cascade Binary Tagging Framework for Relational Triple Extraction

A Novel Cascade Binary Tagging Framework for Relational Triple Extraction2020ACL 吉林大学出品资源：https://github.com/weizhepei/CasRelAbatract作者为了解决三元组重叠（overlap)的情况，提出了新的关系抽取的方法，cascade binary taging framework(CasRel)，和传统的关系抽取不同，传统的关系抽取是通过两个实体来抽取（离散的）关系标签，
复制链接

扫一扫