关于关系抽取（Relation Extraction）的三篇论文

最新推荐文章于 2024-05-08 14:30:05 发布

置顶

羽_羊

最新推荐文章于 2024-05-08 14:30:05 发布

阅读量9.8k

点赞数 3

分类专栏：关系抽取文章标签：关系抽取 Relation Extraction distant supervised 远程监督半监督学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_38031488/article/details/80032020

版权

关系抽取被广泛的应用于NLP领域的多个任务中，而远程监督方法的兴起为关系抽取添加了一把双刃剑。一方面远程监督可以基于少量的标注语料自动的扩展出大量的标注数据。另一方面，错误标签带来的大量无关噪声也为关系抽取的准确度带来了不小的挑战。

本文从三篇NLP顶级会议论文出发来分析解决这个问题。如图一所示，我们的挑战主要来自两个方面。首先如何将输入句子向量化的表示，采用何种算法或者手段进行特征提取，如何将word embedding之后的句子进行提取特征，使得句子数字化的同时而又最大程度的保留了原始信息。其次，我们如何解决错误标签问题，使得大量带噪声的数据对我们实验结果的影响最小，如果不对错误标签进行消噪的话，我们特征提取的越准确，那么可能对我们分类器的错误影响也就越大。

Distant Supervision for Relation Extraction via Piecewise
Convolutional Neural Networks （EMNLP 2015）

PCNN提出的原因：McDonald and Nivre(2007) 研究发现句法分析的准确性随着句子长度的增加而明显的下降。而我们的实验数据如下图所示往往又是较长的句子。

Vector Representation

Word Embeddings ：使用word2vector进行单词短语的向量化表示

Position Embeddings ：对于一个包含两个实体的句子，我们对每个单词加上位置信息，即该单词到实体1的距离和到实体2的距离。

Vector：d = dw + dp ∗2

Convolution

在关系抽取特征提取这块卷积神经网络被青睐的原因。我们所处理的输入是一个仅包含一对已被标记实体的句子，且基于远程监督学习的大胆假设这对实体仅表达一个关系。我们可以理解为输入为一个向量矩阵，而输出为一个实值概率。所以我们仅需从所有的局部特征中预测出全局关系即可，应用卷积神经网络就成为了一个很自然的想法了。但对于关系抽取中联合学习的一个变种就不太适用了，其根本想法是将一个输入句子转化为一个带标签的序列，在利用规定好的标签规则完成关系的确定。所以其本质是序列到序列的训练，使用LSTM会获得良好的表现。

最低0.47元/天解锁文章

关注

3
点赞
踩
22

收藏

觉得还不错? 一键收藏
2
评论
关于关系抽取（Relation Extraction）的三篇论文

关系抽取被广泛的应用于NLP领域的多个任务中，而远程监督方法的兴起为关系抽取添加了一把双刃剑。一方面远程监督可以基于少量的标注语料自动的扩展出大量的标注数据。另一方面，错误标签带来的大量无关噪声也为关系抽取的准确度带来了不小的挑战。本文从三篇NLP顶级会议论文出发来分析解决这个问题。如图一所示，我们的挑战主要来自两个方面。首先如何将输入句子向量化的表示，采用何种算法...
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。