知识抽取与挖掘

最新推荐文章于 2024-02-18 15:35:58 发布

Swayzzu

最新推荐文章于 2024-02-18 15:35:58 发布

阅读量1.4k

点赞数 1

分类专栏：知识图谱文章标签：知识图谱人工智能 big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Swayzzu/article/details/121741279

版权

知识图谱专栏收录该内容

1 篇文章 0 订阅

订阅专栏

目录

一、知识抽取定义

二、知识抽取关键技术

三、面向非结构化数据的抽取任务

①关系抽取举例

②关系抽取方法

四、面向结构化数据的抽取任务

五、面向半结构化数据的抽取任务

1.百科类数据

2.网页类数据

①手工方式提取

②包装器方式抽取

③自动抽取

一、知识抽取定义

从不同来源，不同结构的数据中，进行知识的提取，并形成知识，存入到知识图谱

二、知识抽取关键技术

根据知识的来源，有来自于结构化数据，链接数据，半结构化数据，以及文本数据，每一个数据来源，都有对应的关键技术难点，如下图所示

三、面向非结构化数据的抽取任务

1.实体识别

如下，句子中类似于地点信息，时间信息，人物信息等等，只要是我们需要的重点信息，都可以认为是实体。

通常，我们可以使用序列标注，进行实体实体识别，比如HMM，或者CRF，Bi-LSTM方法等。

2.关系抽取

①关系抽取举例

如下图所示，根据一句话，我们可以抽取出实体之间的关系，比如王健林和王思聪是父子关系等。

②关系抽取方法

这里只做总结，不进行详细描述。

基于模板的方法：

→设定触发词，比如“老婆”，那么文本中出现“老婆”的时候，它的前后的实体就可能是夫妻关系。

→基于依存句法，比如A现身于B，这里“现身于”是核心词，A和B可能是定语、宾语，这样就可以根据语法来抽取关系。

监督学习方法：

重点是特征设计，可以使用以下内容作为特征

模型可以使用Bi-LSTM+attention，CNN+attention等

半监督学习方法：

→远程监督方法：比如知识库中存在“创始人（乔布斯，苹果公司）”，那么就可以从非结构化文本中，把包含这两个实体的句子，作为训练样例。

→bootstrapping方法：之前有写文章介绍过，以及改进版的snowball，这里不再描述。

3.事件抽取

相关术语：

举例如下：

事件抽取中，联合抽取方法效果相对较好，也就是通过多个模型，进行联合预测。

四、面向结构化数据的抽取任务

通过比如D2R, Vitruoso, Morph等工具，以及Direct Mapping或R2RML等语言，将数据提取。

Direct Mapping 举例如下：

R2RML 举例如下：

五、面向半结构化数据的抽取任务

1.百科类数据

比如维基百科等，通常都会有自己的数据的目录，以及对知识的具体描述

通过映射，将半结构化的数据存入知识库。

2.网页类数据

①手工方式提取

上面是通过XPath进行的提取，也可以通过CSS：

②包装器方式抽取

举例如下：

③自动抽取

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
知识抽取与挖掘

本文内容仅仅是一个学习内容的梳理，无具体知识点的细节。
复制链接

扫一扫

专栏目录

Swayzzu CSDN认证博客专家 CSDN认证企业博客

码龄3年

103: 原创

30万+: 周排名

151万+: 总排名

12万+: 访问

: 等级

1137: 积分

28: 粉丝

56: 获赞

35: 评论

394: 收藏

私信

关注

热门文章

分类专栏

CV 18篇
NLP 32篇
知识图谱 1篇
机器学习基础 10篇
深度学习 26篇
数据结构笔记 7篇
opencv 3篇
MySQL 4篇
Linux 3篇

最新评论

KBQA-Bert学习记录-CRF模型
Swayzzu: 建议调试检查下维度吧，看看是哪一行报的，然后断点打到那行，看看维度最后一个是不是10，代码预期是5
KBQA-Bert学习记录-CRF模型
qq_54412326: ValueError: expected last dimension of emissions is 5, got 10大佬，报错这个想问一下时什么问题呢
时间复杂度-主定理分析
狼堡你灰叔371: 虽然不太专业但是做题的话真是个小妙招给你点赞
传统方法车道线标注及相关知识
chigejuzi6661: 想要这个车道线检测源码
车道线分割项目记录-tusimple数据集处理
小学鸡！: 能给出完整的代码嘛？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。