公众号:数据挖掘与机器学习笔记
摘要、前言
-
实体关系抽取:通过对文本信息建模,从文本中自动抽取实体对间的语义关系,提取出有效的语义关系
-
应用领域:信息抽取、自然语言理解、信息检索、机器翻译、语义网标注、知识图谱等
-
抽取方法:传统方法:有监督、半监督、弱监督和无监督;深度学习方法:有监督和远程监督
-
相关领域国际会议:ACL、EMNLP、ICLR、AAA、KDD、NAACL、ECML-PKDD等
2.深度学习实体关系抽取的问题定义和解决框架
2.1 问题定义
实体关系抽取是指在实体识别的基础上,从非结构化文本中抽取预先定义的实体关系。实体对的关系可被形式化描述为关系三元组<e1,r,e2>,其中,e1和e2是实体,r属于目标关系集R{r1,r2,…,ri}。关系抽取是从自然语言中抽取出关系三元组<e1,r,e2>,从而提取文本信息。
2.2 深度学习实体关系抽取方法
有监督包括流水线和联合学习:
- 流水线实体关系抽取方法是指在实体识别完成的基础上直接进行实体之间关系的抽取;
- 联合学习主要是基于神经网络端到端模型,同时完成实体的识别和实体间关系的抽取。
- 远程监督方法:缺少人工标注数据集,比有监督多一步远程对齐知识库给无标签数据打标的过程。而构建关系抽取模型模型的部分,与有监督领域的流水线方法差别不大。
2.3 实体关系抽取问题解决框架
- 获取有标签数据:有监督方法通过人工标记获取有标签数据集,远程监督方法通过自动对齐远程知识库获取有标签数据集
- 构建词向量表示:将有标签句子分词,将每个词语编码成计算机可以接受的词向量,并求出每个词语与句子中实体对的相对位置,作为这个词语的位置向量,将词向量与位置向量组合作为这个词语的最终向量表示。
- 进行特征提取:将句子中每一个词语的向量表示输入神经网络中,利用神经网络模型提取句子特征,进而训练一个特征提取器;
- 关系分类:测试时根据预先定义好的关系种类,将特征提取出的向量放入非线性层进行分类,提取最终的实体对关系;
- 评估分类性能:最后,对关系分类结果进行评估;
3.基于深度学习的有监督实体关系抽取方法
3.1 实体关系抽取框架演化流程
有监督深度学习方法能够解决经典方法中存在的人工特征选择、特征提取误差传播两大主要问题。研究主要集中在融合多种自然语言特征来提高识别精确度。
3.2 流水线方法
基本流程:针对已经标注好目标实体对的句子进行关系抽取,最后把存在实体关系的三元组作为预测结果输出。
- 基于RNN模型的实体关系抽取方法
- 基于CNN模型的实体关系抽取方法