数据平民化之路(二)— 实体关系抽取

随着媒体类应用的传播和推广,大量的数据开始堆叠,信息冗余成为当下的主要问题。尤其在互联网、政务、金融、教育、法律、医疗等众多行业中,大量文档信息需要进行数字化及结构化处理,人工处理方式费时费力,同时也容易产生错误。

数据从业者们开始探索利用人工智能技术对自然语言进行处理,来实现数据价值的快速转化。通过先验知识的总结,来指导自然语言的处理,抽取关键信息形成结构化关系,成为深入数据理解的必由之路。信息的抽取一般指从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术,其本质是通过对信息间的实体关系抽取。

本篇文章将聚焦于社会化信息中的信息抽取过程,实现对数据的实体关系挖掘,来提升数据使用方的数据转化能力。

一、实体关系抽取的过程

实体关系抽取是指从文本中识别出实体及其关系的过程。其原理基于自然语言处理和机器学习技术,通常包括以下步骤:

(1)实体识别:在文本中识别出具有特定含义的实体,例如人名、地名、组织机构等。通常采用命名实体识别技术来完成。

(2)关系抽取:根据实体之间的上下文信息和语法结构,推断出它们之间的关系,关系抽取可以采用基于规则的方法或基于机器学习的方法,其中机器学习方法通常采用监督学习或半监督学习。

(3)实体链接:将文本中的实体链接到已知的知识库或数据库中的实体。

(4)结果评估:评估实体识别和关系抽取的性能,包括准确率、召回率、F1值等指标。

举个例子,在政务领域,某市长信箱的负责人员需要每天处理各类意见、建议、投诉、举报等问题,仅靠肉眼很难从如此大量的内容中获取价值信息,这就需要信息抽取技术,来快速提取关键信息,如举报中的人名、时间、地点、问题等,帮助工作人员掌握举报要素,并快速处理。

这个例子的本质就是探索研究文本之间的关系,当前市场上的信息抽取工具主要分为两种,一种是学术研究的,大多基于理论在有限数据集完成验证,在大面积应用方面缺少实践。另一种是产业化应用的,比如百度的飞桨Paddle、NLPIR、pipeline等,在一定领域完成了知识的迁移、信息抽取模型等开发与验证,并对数据做领域性的标注。

二、实体关系抽取的实现

在实体关系抽取的工具中,PaddleUIE具有良好的实体抽取效果,UIE实现了实体抽取、关系抽取、事件抽取、情感分析等任务的统一建模,并使得不同任务间具备良好的迁移和泛化能力。该模型可以支持通用领域和抽取目标的关键信息抽取,实现零样本快速冷启动,也可以进行小样本微调,快速适配特定的抽取目标。

在这里,我们通过将PaddleUIE封装成一个算子,来支撑对数据抽取处理。以明星影视演员资料的信息为例,准备了如下的数据集:

在数据集中包括演员的基本信息,以及主演的影视作品信息。我们的目标就是尽可能得抽取同类关系数据。

首先在平台中将需要处理的文件(text、word、pdf、excel等)导入平台中。这里我们还是利用文件输入算子来进行数据集的导入,可以支持多文件并行处理。

然后经过全文读取将文本加载到内存中,在这里定义了读的模式,平台会自动识别值格式,当该值为bin时,表示以二进制方式读取,将文件读为字节块;当该值为txt时,表示以文本方式读取文件,将文件读为文本块。

在数据加载到平台后,就可以利用已经封装的Paddle实体抽取算子,来实现内容抽取,基于paddle已经集成的属性关系,只需要定义抽取模式即可,这里定义了“姓名、生日、出生地、影视剧”几个模式值。

待抽取模式一般可以指定抽取多个实体,实体规则间用','号分隔。如在文本中抽取人名、组织,则模式为“人名,组织”。实体识别结果通过列名格式为:columnName+"_entities"列输出,输出结构如下:

{

int gid; // 实体识别的组ID

String schema; // 实体类型

String value; // schema对应的实体

double prob; // 实体的识别概率,该值越高表明可信度越高

int offset; // 实体在文本中的位置

}

数据类型: String

通过以上抽取框架,完成对数据的关系抽取,并通过下图(图1)的对象结构映射实现数据格式的转化,并进行结果的输出(图2)。

图1

图2

三、综述

实体关系抽取已经成为知识图谱、知识工程、信息检索等领域的重要研究对象,旨在实现自动地从海量文本语料中抽取实体间的语义知识,获取结构化的实体关系知识的体系。通过本平台集成的实体抽取算子(不限于Paddle)来进行数据抽取,总体来看,使用操作上比较简单,不需要太多的知识积累,降低了对数据从业人员自身技能的标准,可以快速的应用在社会化数据的挖掘场景中来。

数由科技是一家数据科学平台提供商,致力于实现数据处理“平民化”的应用。面向大数据产业链,提供数据工厂化、数据管道化、数据运营化、数据治理化、数据可视化的数据价值挖掘解决方案,帮助政府、企业、个人在数据孪生时代激活数据价值。

如需了解更多内容,请加入讨论组

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值