NLP-信息抽取:概述【Information Extraction, 从纯文本中进行:①实体抽取与链指(命名实体识别)、②关系抽取、③事件抽取】

知识抽取涉及的“知识”通常是 清楚的、事实性的信息,这些信息来自不同的来源和结构,而对不同数据源进行的知识抽取的方法各有不同,

  • 从结构化数据中获取知识用 D2R,其难点在于复杂表数据的处理,包括嵌套表、多列、外键关联等,
  • 从链接数据中获取知识用图映射,难点在于数据对齐,
  • 从半结构化数据中获取知识用包装器,难点在于 wrapper 的自动生成、更新和维护,

这一篇主要讲从文本中获取知识,也就是我们广义上说的信息抽取。

在这里插入图片描述

一、信息抽取三个最重要/最受关注的子任务

在这里插入图片描述

1、实体抽取

也就是命名实体识别,包括实体的检测(find)和分类(classify)

实体抽取后,会进行实体统一指代消解,然后再进行关系抽取

2、关系抽取

通常我们说的三元组(triple)抽取,主要用于抽取实体间的关系:一个谓词(predicate)带 2 个形参(argument),如 Founding-location(IBM,New York)。
在这里插入图片描述

关系抽取通常在实体抽取与实体链指之后。在识别出句子中的关键实体后,还需要抽取两个实体或多个实体之间的语义关系

语义关系通常用于连接两个实体,并与实体一起表达文本的主要含义。

常见的关系抽取结果可以用SPO结构的三元组来表示,即 (Subject, Predication, Object)

例子:中国的首都是北京 ==> (中国, 首都, 北京)

3、事件抽取

相当于一种多元关系的抽取




参考资料:
知识抽取-实体及关系抽取(一)
文献阅读15-OntoILPER:A logic-based relational learning approach关系抽取,NER+RE
关系抽取-END-TO-END NER RE-论文笔记:END-TO-END NAMED ENTITY RECOGNITION AND RELATION EXTRACTION USING PRE-TRAINED LANGUAGE MODELS
在线信息抽取网站:diffbot

好的,这个任务可以分为两个步骤:命名实体识别关系抽取。 1. 命名实体识别 命名实体识别(Named Entity Recognition,NER)是文本识别出具有特定意义的实体,如人名、地名、组织机构名等。常用的方法有基于规则的方法和基于机器学习的方法。这里我们使用基于机器学习的方法,具体步骤如下: - 准备数据:将csv文件文本抽取出来,将需要识别的实体标注出来,得到标注数据集。 - 特征提取:将文本转化为特征表示,常用的方法有词袋模型、TF-IDF等。 - 模型训练:选择一个合适的机器学习算法,如CRF、BiLSTM-CRF等,进行模型训练。 - 模型评估:使用测试集对模型进行评估,计算准确率、召回率、F1值等标。 2. 关系抽取 关系抽取(Relation Extraction,RE)是文本抽取实体之间的关系。常用的方法有基于规则的方法和基于机器学习的方法。这里我们使用基于机器学习的方法,具体步骤如下: - 准备数据:将csv文件文本抽取出来,将需要抽取实体和它们之间的关系标注出来,得到标注数据集。 - 特征提取:将文本转化为特征表示,常用的方法有词袋模型、TF-IDF等。 - 模型训练:选择一个合适的机器学习算法,如CNN、LSTM等,进行模型训练。 - 模型评估:使用测试集对模型进行评估,计算准确率、召回率、F1值等标。 以上是基本的流程,具体实现过程还需要考虑数据预处理、特征选择、模型调参等问题。建议使用开源工具包如NLTK、StanfordNLP等来完成这个任务。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值