结构化数据抽取成三元组_干货丨AI在数据防泄漏中的应用——知识图谱之知识抽取...

本文介绍了AI在数据防泄漏领域的应用,通过知识图谱技术将数据结构化,提高数据治理效率。知识抽取涉及非结构化、半结构化和结构化数据的处理,包括信息抽取、包装器技术和D2R映射等方法,旨在从多元异构数据中提取知识并转化为知识图谱。
摘要由CSDN通过智能技术生成

随着技术的不断发展,AI(Artificial Intelligence,人工智能)逐渐在社会经济发展的方方面面深入,成为信息化时代最重要的支柱技术之一。

在数据安全领域领域,AI技术所能起到的作用越来越大,如针对数据防泄漏,运用知识图谱技术可以使数据实现结构化,减少人为性工作,从而让数据治理工作趋向智能化,提升工作效率。

b80b75050e34b9515773763d4fff95bb.png

在之前的文章中,明朝万达数据安全专家已经就“何为 AI在数据防泄漏中的应用--知识图谱”做了详细的介绍。之后我们也将以系列文章形式为大家分享“知识抽取”、“知识融合”、“知识推理”、“知识运用”的相关知识,大家一同探讨,深入了解。

知识图谱之知识抽取

知识抽取是指从不同来源、不同结构的数据中进行知识提取,提取出数据内涵的事实性信息并供给知识图谱做进一步加工处理后会形成知识,存入到知识图谱。

知识抽取需处理的数据为多源异构数据,一般包括非结构化数据、半结构化数据和结构化数据,其相应的知识抽取的方法和技术各不相同。

f2ea4aecab4653529a63421b7d5e2069.png

△多元异构数据与对应知识抽取技术

★ 从非结构化中获取知识用信息抽取,其难点在于结果的准确率与覆盖率;

★ 从半结构化数据中获取知识用包装器,难点在于包装器的自动生成、更新和维护;

★ 从结构化数据中获取知识用 D2R,其难点在于复杂表数据的处理,包括嵌套表、多列、外键关联等;

★ 从链接数据中获取知识用图映射,难点在于数据对齐。

知识抽取:非结构化数据

面向非结构化数据的知识抽取使用信息抽取技术解决,信息抽取包括命名实体识别、关系识别、共指消歧、事件抽取及模板填充五个任务,其流程如下图所示:

f02df31df2c7c03d185c4c6a01822def.png

知识抽取:半结构化数据

半结构化数据是指类似于百科、商品列表等本身存在一定结构但需要进一步提取整理的数据。面向半结构化的知识抽取使用包装器实现,其基本流程如下:

dca2b530adb99e779cd7323bd3beac64.png

知识抽取:结构化数据

结构化数据就是指类似于关系库中表格形式的数据,该类数据往往在各项之间存在明确的关系名称和对应关系。因此可以简单的将其转化为RDF或其他形式的知识库内容。

关于知识抽取,一种常用的W3C推荐的映射语言是R2RML(RDB2RDF),其映射结果如下:

1、数据库表t_student结构

a3818f5ebce55d0f3833346767d3576b.png

2、按照R2RML语言映射成RDF三元组知识结构

c55065fdded46486b52423d7e9964126.png

以及,现有的工具免费的有D2RQ,Virtuoso、MOrph等。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值