知识抽取(二)

前面介绍了面对非结构化数据的知识抽取,那么接下来介绍面对结构化和和半结构化数据的知识抽取。

1. 面向结构化数据的知识抽取

垂直领域的知识往往来源于支撑企业业务系统的关系数据库,因此,从数据库这种结构化数据中抽取知识也是一类重要的知识抽取方法。
在该领域,已经有一些标准和工具支持将数据库数据转化为RDF数据、OWL本体等。
W3C的RDB2RDF工作组于2012年发布了两个推荐的RDB2RDF映射语言:DM(Direct Mapping,直接映射)R2RML。DM和R2ML映射语言用于定义关系数据库中的数据如何转换为RDF数据的各种规则,具体包括URI的生成、RDF类和属性的定义、空节点的处理、数据间关联关系的表达等。

1.1 直接映射

直接映射规范定义了一个从关系数据库到RDF图数据的简单转换,为定义和比较更复杂的转换提供了基础。它也可用于实现RDF图或定义虚拟图,可以通过SPARQL查询或通过RDF图API访问。
直接映射将关系数据库表结构和数据直接转换为RDF图,关系数据库的数据结构直接反映在RDF图中。直接映射的基本规则包括:
● 数据库中的表映射为RDF类;
● 数据库中表的列映射为RDF属性;
● 数据库表中每一行映射为一个资源或实体,创建IRI;
● 数据库表中每个单元格的值映射为一个文字值(Literal Value);如果单元格的值对应一个外键,则将其替换为外键值指向的资源或IRI
IRI 就是一个符合特定语法的 UINICODE 字符串,跟 URL 的形式比较类似。其实 URL 属于 IRI 的一种。字面值可以理解为像时间、人名、数字等常量的表示,由字符串和表示数据类型的 IRI 构成。例如数字 1 的字面值可以表示为"1"^^xs:integer,其中 xs:integer 是表示整型数据类型的 IRI。

1.2 R2RML

R2RML映射语言是一种用于表示关系数据库到RDF数据集的自定义映射的语言。
通过使用R2RML,用户可以在关系数据上灵活定义视图。每个R2RML映射都针对特定的数据库模式和目标词汇量身定制。
R2RML映射的输入是符合该模式的关系数据库,输出是采用目标词汇表中谓词和类型描述的RDF数据集。

1.3 相关工具

目前,有许多工具支持以访问知识图谱的形式直接访问关系数据库,可以直接使用SPARQL语句查询数据库中的信息;这类工具也常被称为基于本体的数据库访问(Ontology Based Database Access,OBDA)系统。这里介绍几种重要的OBDA系统。
在这里插入图片描述

2. 面向半结构化数据的知识抽取

半结构化数据是一种特殊的结构化数据形式,该形式的数据不符合关系数据库或其他形式的数据表形式结构,但又包含标签或其他标记来分离语义元素并保持记录和数据字段的层次结构。
自万维网出现以来,半结构化数据越来越丰富,全文文档和数据库不再是唯一的数据形式,因此半结构化数据也成为知识获取的重要来源。
目前,百科类数据、网页数据是可被用于知识获取的重要半结构化数据,本节将介绍面向此类数据的知识抽取方法。

2.1 面向百科类的数据抽取

以维基百科为代表的百科类数据是典型的半结构化数据。在维基百科中,词条页面结构如图所示,包含了词条标题、词条摘要、跨语言链接、分类、信息框等要素,这些都是关于描述对象的半结构化数据。
在这里插入图片描述
DBpedia使用了多种知识提取器从维基百科中获取结构化数据,具体包括:
● 标签(Labels):抽取维基百科词条的标题,并将其定义为实体的标签;
● 摘要(Abstracts):抽取维基百科词条页面的第一段文字,将其定义为实体的短摘要;抽取词条目录前最长500字的长摘要。
● 跨语言链接(Inter-language Links):抽取词条页面指向其他语言版本的跨语言链接;
● 图片(Images):提取指向图片的链接;
● 重定向(Redirects):抽取维基百科词条的重定向链接,建立其与同义词条的关联;
● 消歧(Disambiguation):从维基百科消歧页面抽取有歧义的词条链接;
● 外部链接(External Links):抽取词条正文指向维基百科外部的链接;
● 页面链接(Pagelinks):抽取词条正文指向维基百科内部的链接;
● 主页(Homepages):抽取诸如公司、机构等实体的主页链接;
● 分类(Categories):抽取词条所属的分类;
● 地理坐标(Geo-Coordinates):抽取词条页面中存在的地理位置的经纬度坐标。
● 信息框(infobox):从词条页面的信息框中抽取实体的结构化信息。

2.2 面向web网页的知识抽取

互联网中的网页含有丰富的数据,与普通文本数据相比,网页也具有一定的结构,因此也被视为是一种半结构化的数据。
网页—输入–包装器–输出–结构化数据
包装器的生成方法有三大类:手工方法、包装器归纳方法和自动抽取方法

  1. 手工方法
    手工方法是通过人工分析构建包装器信息抽取的规则。
    (1)查看网页结构和代码,在人工分析的基础上,手工编写抽取表达式
    (2)Xpath表达式: XML语言路径
    XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。借助它可以获取网页中元素的位置,从而获取需要的信息。
    (3)CSS选择器的表达式
    CSS选择器是通过CSS元素实现对网页中元素的定位,并获取元素信息的。

  2. 包装归纳方法
    有监督学习方法–已标注的训练样本集合–学习信息抽取规则–其他网页数据抽取
    步骤:
    (1)网页清洗:清洗不规范的HTML,XML,可采用TIDY类
    (2) 网页标注:某个位置打上特殊的标签
    (3)包装器空间生成:将标注数据生成XPath集合空间,对集合进行归纳,形成若干个子集
    (4)包装器评估:准确率和召回率

  3. 自动抽取方法
    包装器归纳方法需要大量的人工标注工作,因而不适用对大量站点进行数据的抽取。
    相似的网页通过聚类分成若干组
    挖掘同一组中相似网页的重复模式,生成适用于该组网页的包装器
    将需要抽取的页面划分到对应的网页组,对应组的包装器进行数据抽取
    在这里插入图片描述

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值