本文是基于王昊奋老师的知识图谱入门教程第三讲内容的学习笔记。总体来说,这节课介绍了知识图谱三种数据源,以及针对每种数据源实现的知识抽取方法,最后介绍了一个关于佛学知识图谱的实现案例,并留了两道基于正则表达式实现知识抽取的作业。
因为视频内容过于丰富,我个人有针对性的学习了第一部分,即针对非结构化的知识抽取,也就是关于文本的处理。而对于结构化的数据,和半结构化的数据,仅作为了解,笔记总结的内容不够详细。最后的案例我觉得是很好的,而且有在线的网址效果和对应的论文,有很好的学习和借鉴价值。
前言 知识图谱数据来源和知识抽取方式
知识图谱的数据源分为三种类型:结构化、半结构化和非结构化。
- 结构化数据:链接数据、数据库。
- 针对数据库的知识抽取方法主要是D2R,难点是嵌套表等复杂表数据的处理
- 针对链接数据的知识抽取方法主要是图映射,难点是数据对齐。从开放知识图谱中希望做一个领域知识图谱,一种方便的做法是图映射,基于自己领域知识图谱中定义的schema, 就需要有开放知识图谱与自己领域知识图谱的数据对齐。
- 半结构化数据:网页中的表格、列表、百科中的信息。
- 针对半结构化数据的知识抽取是使用包装器,难点是包装器的定义方法、包装器的自动生成、更新和维护
- 非结构化数据:纯文本数据、多媒体数据
- 针对非结构化数据的知识抽取方法是信息抽取,难点是结果的准确率与覆盖率
第一部分 面向非结构化的知识抽取任务
1.1 实体抽取
实体抽取
实体抽取,又称为命名实体识别。
它要做的是首先从文本中识别和定位文本,然后将识别到的实体分类到预定义的类别中去。
在这个例子中,“背景” 和 “10月25日” 分别为地点和时间类型的实体。而“骑士”和“公牛” 为组织类型的实体。