王昊奋知识图谱学习笔记--第三讲知识抽取与知识挖掘(上)

这篇博客是王昊奋知识图谱教程第三讲的学习笔记,重点介绍了知识抽取的三大类型:非结构化、结构化和半结构化。对于非结构化数据,详细探讨了实体抽取、关系抽取和事件抽取;结构化数据的抽取方法如D2R和图映射;半结构化数据则提到了包装器。文中还提及了关系抽取的监督学习和深度学习方法,以及数据库到RDF的映射工具Ontop。最后,分享了一个佛学知识图谱的实践案例,展示了知识抽取的完整流程。
摘要由CSDN通过智能技术生成

本文是基于王昊奋老师的知识图谱入门教程第三讲内容的学习笔记。总体来说,这节课介绍了知识图谱三种数据源,以及针对每种数据源实现的知识抽取方法,最后介绍了一个关于佛学知识图谱的实现案例,并留了两道基于正则表达式实现知识抽取的作业。

因为视频内容过于丰富,我个人有针对性的学习了第一部分,即针对非结构化的知识抽取,也就是关于文本的处理。而对于结构化的数据,和半结构化的数据,仅作为了解,笔记总结的内容不够详细。最后的案例我觉得是很好的,而且有在线的网址效果和对应的论文,有很好的学习和借鉴价值。

前言 知识图谱数据来源和知识抽取方式

知识图谱的数据源分为三种类型:结构化、半结构化和非结构化。

  • 结构化数据:链接数据、数据库。
    • 针对数据库的知识抽取方法主要是D2R,难点是嵌套表等复杂表数据的处理
    • 针对链接数据的知识抽取方法主要是图映射,难点是数据对齐。从开放知识图谱中希望做一个领域知识图谱,一种方便的做法是图映射,基于自己领域知识图谱中定义的schema, 就需要有开放知识图谱与自己领域知识图谱的数据对齐。
  • 半结构化数据:网页中的表格、列表、百科中的信息。
    • 针对半结构化数据的知识抽取是使用包装器,难点是包装器的定义方法包装器的自动生成、更新和维护
  • 非结构化数据:纯文本数据、多媒体数据
    • 针对非结构化数据的知识抽取方法是信息抽取,难点是结果的准确率与覆盖率

在这里插入图片描述

第一部分 面向非结构化的知识抽取任务

1.1 实体抽取

实体抽取

实体抽取,又称为命名实体识别。
它要做的是首先从文本中识别和定位文本,然后将识别到的实体分类到预定义的类别中去。
在这里插入图片描述

在这个例子中,“背景” 和 “10月25日” 分别为地点和时间类型的实体。而“骑士”和“公牛” 为组织类型的实体。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值