王昊奋知识图谱学习笔记--第三讲知识抽取与知识挖掘（上）

最新推荐文章于 2023-08-25 16:40:27 发布

行路南

最新推荐文章于 2023-08-25 16:40:27 发布

阅读量1.9k

点赞数 4

分类专栏：知识图谱文章标签：大数据知识图谱自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010414589/article/details/109130797

版权

这篇博客是王昊奋知识图谱教程第三讲的学习笔记，重点介绍了知识抽取的三大类型：非结构化、结构化和半结构化。对于非结构化数据，详细探讨了实体抽取、关系抽取和事件抽取；结构化数据的抽取方法如D2R和图映射；半结构化数据则提到了包装器。文中还提及了关系抽取的监督学习和深度学习方法，以及数据库到RDF的映射工具Ontop。最后，分享了一个佛学知识图谱的实践案例，展示了知识抽取的完整流程。

摘要由CSDN通过智能技术生成

本文是基于王昊奋老师的知识图谱入门教程第三讲内容的学习笔记。总体来说，这节课介绍了知识图谱三种数据源，以及针对每种数据源实现的知识抽取方法，最后介绍了一个关于佛学知识图谱的实现案例，并留了两道基于正则表达式实现知识抽取的作业。

因为视频内容过于丰富，我个人有针对性的学习了第一部分，即针对非结构化的知识抽取，也就是关于文本的处理。而对于结构化的数据，和半结构化的数据，仅作为了解，笔记总结的内容不够详细。最后的案例我觉得是很好的，而且有在线的网址效果和对应的论文，有很好的学习和借鉴价值。

前言知识图谱数据来源和知识抽取方式

知识图谱的数据源分为三种类型：结构化、半结构化和非结构化。

结构化数据：链接数据、数据库。
- 针对数据库的知识抽取方法主要是D2R，难点是嵌套表等复杂表数据的处理
- 针对链接数据的知识抽取方法主要是图映射，难点是数据对齐。从开放知识图谱中希望做一个领域知识图谱，一种方便的做法是图映射，基于自己领域知识图谱中定义的schema, 就需要有开放知识图谱与自己领域知识图谱的数据对齐。
半结构化数据：网页中的表格、列表、百科中的信息。
- 针对半结构化数据的知识抽取是使用包装器，难点是包装器的定义方法、包装器的自动生成、更新和维护
非结构化数据：纯文本数据、多媒体数据
- 针对非结构化数据的知识抽取方法是信息抽取，难点是结果的准确率与覆盖率

在这里插入图片描述

第一部分面向非结构化的知识抽取任务

1.1 实体抽取

实体抽取

实体抽取，又称为命名实体识别。
它要做的是首先从文本中识别和定位文本，然后将识别到的实体分类到预定义的类别中去。
在这里插入图片描述

在这个例子中，“背景” 和 “10月25日” 分别为地点和时间类型的实体。而“骑士”和“公牛” 为组织类型的实体。

最低0.47元/天解锁文章

关注

4
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

行路南 CSDN认证博客专家 CSDN认证企业博客

码龄12年

129: 原创

3万+: 周排名

82万+: 总排名

114万+: 访问

: 等级

5753: 积分

426: 粉丝

616: 获赞

255: 评论

3032: 收藏

私信

关注

热门文章

分类专栏

OpenCV 3篇
C++
语义分割 6篇
图像分类 5篇
数据集 3篇
NVIDIA DeepStream 9篇
LeetCode 8篇
目标检测 4篇
数据增强 1篇
PyTorch 2篇
deep learning 4篇
目标追踪 2篇
自然语言处理 2篇
知识图谱 6篇
matplotlib 1篇
Git 1篇
机器学习 19篇
数据挖掘 22篇
算法 7篇
学习随笔 15篇
Hadoop 8篇
Linux 4篇
软件部署 17篇

最新评论

【PyTorch】torch.mean(), dim=0, dim=1 详解
lanlalala: a tensor([[[ 0., 1., 2., 3.], [ 4., 5., 6., 7.], [ 8., 9., 10., 11.]], [[12., 13., 14., 15.], [16., 17., 18., 19.], [20., 21., 22., 23.]]], dtype=torch.float64) a.shape torch.Size([2, 3, 4]) mean0 tensor([[[ 6., 7., 8., 9.], [10., 11., 12., 13.], [14., 15., 16., 17.]]], dtype=torch.float64) mean0.shape torch.Size([1, 3, 4]) mean1 tensor([[[ 4., 5., 6., 7.]], [[16., 17., 18., 19.]]], dtype=torch.float64) mean1.shape torch.Size([2, 1, 4]) mean2 tensor([[[ 1.5000], [ 5.5000], [ 9.5000]], [[13.5000], [17.5000], [21.5000]]], dtype=torch.float64) mean2.shape torch.Size([2, 3, 1])
【PyTorch】torch.mean(), dim=0, dim=1 详解
lanlalala: 按照楼主的，可供参考 a = torch.arange(24, dtype=float).reshape((2,3,4)) print('a',a) print('a.shape', a.shape) print(" ") mean0 = torch.mean(a, dim=0, keepdims=True) print('mean0', mean0) print('mean0.shape', mean0.shape) print(" ") mean1 = torch.mean(a, dim=1, keepdims=True) print('mean1', mean1) print('mean1.shape', mean1.shape) print(" ") mean2 = torch.mean(a, dim=2, keepdims=True) print('mean2', mean2) print('mean2.shape', mean2.shape)
7G的森林火情数据集，文末附数据集和源代码
qq_56413072: 博主，求一份数据集有没有百度网盘链接
7G的森林火情数据集，文末附数据集和源代码
weixin_43880420: 博主，这个数据集有标注文件嘛？
二叉树的后序遍历
小白 ~forever: 你这页面设计有点离谱，锚点链接不用，用新页面

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。