提出使用多实例结合分段CNN进行关系抽取
主要内容:针对远程监督中利用启发式对其导致的错误标签以及特征提取过程中产生的噪音等两个问题,本文提出了一种基于多实例学习的分段CNN模型。该模型包括以下两部分:
将远程监督关系抽取问题看作一个多实例问题,将不确定的实例标签纳入考虑
采用分段最大池化的CNN来自动学习特征,避免使用复杂的特征工程
该论文主要分为以下几部分
一、引言
首先介绍了远程监督的概念以及提出的背景,然后发现该方法存在的两个缺点,其一是远程监督的假设太强进而导致易出现错误标签问题;其二为将使用远程监督获得的标注数据应用于特征工程时,由于NLP分析的不准确易导致错误的传播与累积。
因此引入本文提出的基于多实例学习的分段CNN模型
多实例:训练集由多个包组成,每个包包含许多实例。包的标签已知但包里的实例标签未知,将未知的实例标签纳入考虑
分段CNN:使用CNN进行特征学习时,将卷积结果根据两个实体的位置分为三部分,对每部分使用最大池化,然后返回每部分的最大值进行结合
主要贡献:
- 使用PCNN而不是人工设计的特征进行远程监督关系提取
- 将多实例学习融入到PCNN中来解决错误标签问题
- 设计分段最大池化来捕捉结构信息