中文知识图谱CN-DBpedia构建的关键技术

这篇博客介绍了CN-DBpedia,一个大规模的中文开放百科知识图谱,及其构建和更新的关键技术。内容包括知识图谱的定义、CN-DBpedia的应用场景、系统架构及抽取、归一化、填充等模块,特别是实体分类和基于Taxonomy复用的方法,以及主动更新策略和更新框架的设计。
摘要由CSDN通过智能技术生成

这篇博客是根据学习查看复旦大学知识工厂实验室的徐波老师报告整合资料后的笔记,报告内容详略得当,结构清晰,干货满满,于是便自己整理并记下来,方便以后深度学习。

 

什么是知识图谱?

知识图谱本质上是一种语义网络。

主要由节点,边,目标三大块组成。

其中节点包括:实体、概念。边包括:实体与实体、实体与概念、概念与概念。目标包括:描述真实世界中存在的各种实体或概念。

 

简介中文开放百科知识图谱CN-DBpedia

 是目前最大规模的开放百科中文知识图谱之一。 

涵盖数千万实体和数亿的关系。

• 百科实体数 16,537,283

• 百科关系数 213,506,696

相关知识服务API累计调用量已达2.6亿次。  

 

CN-DBpedia主要应用场景

语义搜索、智能问答、超级验证码。

CN-DBpedia系统构架

报告中,老师主要介绍了三大模块:抽取模块、归一化模块、填充模块。

 

抽取模块:

归一化模块:

填充模块:

方法一:利用其它知识图谱进行填充。

e.g. YAGO利用Geonames(一个包含超过1000万地点位置信息的地理知识 图谱)来增加YAGO实体的地理位置信息

 方法二:利用百科网站的其他语种进行填充

e.g. Wikipedia

 方法三:利用百科网站实体标签进行填充

e.g. 如“刘德华”的一个分类信息为“香港演员”,可以从中得出(刘

德华,出生地,香港)和(刘德华,职业,演员)两组Infobox

方法四:利用百科网站实体正文进行填充

百科实体正文内容是对实体最全面的介绍,包含的信息最为丰富

 

利用百科网站实体正文内容进行填充

基本思路

为每个属性构建一个抽取器

知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及 其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地 组织、管理和理解互联网海量信息的能力。知识图谱给互联网语义搜索带来了活 力,同时也在智能问答中显示出强大威力,已经成为互联网知识驱动的智能应用 的基础设施。知识图谱与大数据和深度学习一起,成为推动互联网和人工智能发 展的核心驱动力之一。 知识图谱技术是指知识图谱建立和应用的技术,是融合认知计算、知识表示 与推理、信息检索与抽取、自然语言处理与语义 Web、数据挖掘与机器学习等方 向的交叉研究。知识图谱于 2012 年由谷歌提出并成功应用于搜索引擎,知识图 谱属于人工智能重要研究领域——知识工程的研究范畴,是利用知识工程建立大 规模知识资源的一个杀手锏应用。94 年图灵奖获得者、知识工程的建立者费根 鲍姆给出的知识工程定义——将知识集成到计算机系统从而完成只有特定领域 专家才能完成的复杂任务。在大数据时代,知识工程是从大数据中自动或半自动 获取知识,建立基于知识的系统,以提供互联网智能知识服务。大数据对智能服 务的需求,已经从单纯的搜集获取信息,转变为自动化的知识服务。我们需要利 用知识工程为大数据添加语义/知识,使数据产生智慧(smart data),完成从数据 到信息到知识,最终到智能应用的转变过程,从而实现对大数据的洞察、提供用 户关心问题的答案、为决策提供支持、改进用户体验等目标。知识图谱在下面应 用中已经凸显出越来越重要的应用价值
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值