Distant supervision for relation extraction without labeled data论文理解

Distant supervision for relation extraction without labeled data论文理解

论文作者:Mike Mintz, Steven Bills, Rion Snow, Dan Jurafsky

核心词汇:multiclass logistic regression classifier 多类逻辑回归分类器

named entity tagger 命名实体标记器

lexical 词汇的

syntactic 词法的

语义特征那里不是很明白

1、远程监督的思想

这篇论文首先回顾了关系抽取的监督学习、无监督学习和Bootstrapping算法的优缺点,进而结合监督学习和Bootstrapping的优点,提出了用远程监督做关系抽取的算法。

远程监督算法有一个非常重要的假设:对于一个已有的知识图谱(论文用的Freebase)中的一个三元组(由一对实体和一个关系构成),假设外部文档库(论文用的Wikipedia)中任何包含这对实体的句子,在一定程度上都反映了这种关系。基于这个假设,远程监督算法可以基于一个标注好的小型知识图谱,给外部文档库中的句子标注关系标签,相当于做了样本的自动标注,因此是一种半监督的算法

具体来说,在训练阶段,用命名实体识别工具,把训练语料库中句子的实体识别出来。如果多个句子包含了两个特定实体,而且这两个实体是Freebase中的实体对(对应有一种关系),那么基于远程监督的假设,认为这些句子都表达了这种关系。于是从这几个句子中提取文本特征,拼接成一个向量,作为这种关系的一个样本的特征向量,用于训练分类器。

2、预测方法

从数据库中提取包含目标关系对应的一个实体对的全部句子,分别计算这些句子的所有特征并拼接,然后再使用多类逻辑回归分类器训练判断。这样可以在一定程度上消除误差(并不是包含这两个实体就能体现这种关系)。

在这里插入图片描述

因为远程监督算法可以使用大量无标签的数据,Freebase中的每一对实体在文档库中可能出现在多个句子中。从多个句子中抽出特征进行拼接,作为某个样本(实体对)的特征向量,有两个好处:

一是单独的某个句子可能仅仅包含了这个实体对,并没有表达Freebase中的关系,那么综合多个句子的信息,就可以消除噪音数据的影响。

二是可以从海量无标签的数据中获取更丰富的信息,提高分类器的准确率。

此处可能存在误差,因此后续需要引入PCNN或CNN-RL等模型来消除误差。

原文描述:

3、分类器需要添加的特征

1、词法特征
在这里插入图片描述

2、句法特征

在这里插入图片描述

示意图如下:

在这里插入图片描述

其中最短依存路径这个概念并不是很熟悉。

3、命名实体标签特征
在这里插入图片描述

最终处理时需要将三种特征合并起来,由分类器自己训练得到权重。

主要参考博文链接:https://www.cnblogs.com/dhName/p/11727895.html

原论文地址:https://www.aclweb.org/anthology/P09-1113.pdf

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值