用通俗易懂的方式讲解:实体关系抽取入门教程

信息抽取主要包括3项子任务:实体抽取、关系抽取和事件抽取,而关系抽取是信息抽取领域的核心任务和重要环节。

实体关系抽取的主要目标是从自然语言文本中识别并判定实体对之间存在的特定关系。本文为《实体关系抽取方法研究综述》论文的阅读笔记。

技术提升

本文由技术群粉丝分享,项目源码、数据、技术交流提升,均可加交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友

方式①、添加微信号:mlc2060,备注:来自CSDN +技术交流
方式②、微信搜索公众号:机器学习社区,后台回复:加群

关系抽取定义

在自然语言处理领域,关系通常主要指代文本中实体之间的联系,如语法关系、语义关系等。通常将实体间的关系形式化地描述为关系三元组, 其中E指的是实体类型,R为的是关系描述类型。

基于以上的定义,可以直观地将关系抽取任务分成3个关键的模块:

  • 命名实体识别:是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等

  • 触发词识别:对触发实体关系的词进行分类,识别出是触发词还是非触发词,判定抽取出的关系是正类还是负类;

  • 关系抽取模块:从识别出的实体中抽取实体间的语义关系;

关系抽取评价指标

针对特定领域的关系抽取的结果,一般通过计 算对应的准确率(Precision)、召回率(Recall)和F1值来评价。

在这里插入图片描述

实体关系抽取方法

基于规则的关系抽取方法

基于规则的关系抽取方法要求规则构建者(如 语言学家等)对领域的背景和特点有深入的了解。

基于词典驱动的关系抽取方法

在基于词典驱动的关系抽取方法中,需要对词典进行扩充,通常只需新增指示实体关系类型的动词即可。

基于机器学习的抽取方法

有监督的关系抽取方法将关系抽取任务看作分类问题。通常需要预先了解语料库中所有可能的目标关系的种类,并通过人工对数据进行标注,建立训练语料库。

基于深度学习的关系抽取方法

有监督深度学习的关系抽取方法主要有流水线学习(pipeline) 和联合学习(joint)两种。

流水线学习

流水线学习方法是指在实体识别已经完成的基础上直接进行实体之间关系的抽取。早期的流水式学习方法主要为CNN或RNN。

在实体关系抽取方面使用CNN模型,由输入层、卷积层、池化层和softmax层组成,输入词向量和距离向量等原始数据进行实体关系抽取。

在实体关系抽取方面使用RNN模型,RNN对标注文本中的句子进行句法解析, 经过不断迭代得到了句子的向量表示,有效地考虑了句子的句法结构。

联合学习

联合学习方法有3种,包括基于参数共享的实体关系抽取方法、基于序列标注的实体关系抽取方法和基于图的实体关系抽取方法。

  • 参数共享方法:通过共享编码层在训练过程中产生的共享参数相互依赖。

  • 序列标注方法:利用一个端到端的神经网络模型抽取出实体之间的关系三元组。

  • 基于图的方法:利用图的节点表示实体,边表示关系。

NLP 内容汇总

一、NLP基础学习

1、用通俗易懂的方式讲解:NLP 这样学习才是正确路线

2、用通俗易懂的方式讲解:TF-IDF算法介绍及实现

3、用通俗易懂的方式讲解:总结NLTK使用方法

4、用通俗易懂的方式讲解:针对中文的自然语言预处理方法汇总

5、用通俗易懂的方式讲解:NLP常见语言模型及数据增强方法总结

6、用通俗易懂的方式讲解:TextRank 算法介绍及实现

7、用通俗易懂的方式讲解:关键词提取方法总结及实现

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值