中文知识图谱CN-DBpedia构建的关键技术

这篇博客是根据学习查看复旦大学知识工厂实验室的徐波老师报告整合资料后的笔记,报告内容详略得当,结构清晰,干货满满,于是便自己整理并记下来,方便以后深度学习。

 

什么是知识图谱?

知识图谱本质上是一种语义网络。

主要由节点,边,目标三大块组成。

其中节点包括:实体、概念。边包括:实体与实体、实体与概念、概念与概念。目标包括:描述真实世界中存在的各种实体或概念。

 

简介中文开放百科知识图谱CN-DBpedia

 是目前最大规模的开放百科中文知识图谱之一。 

涵盖数千万实体和数亿的关系。

• 百科实体数 16,537,283

• 百科关系数 213,506,696

相关知识服务API累计调用量已达2.6亿次。  

 

CN-DBpedia主要应用场景

语义搜索、智能问答、超级验证码。

CN-DBpedia系统构架

报告中,老师主要介绍了三大模块:抽取模块、归一化模块、填充模块。

 

抽取模块:

归一化模块:

填充模块:

方法一:利用其它知识图谱进行填充。

e.g. YAGO利用Geonames(一个包含超过1000万地点位置信息的地理知识 图谱)来增加YAGO实体的地理位置信息

 方法二:利用百科网站的其他语种进行填充

e.g. Wikipedia

 方法三:利用百科网站实体标签进行填充

e.g. 如“刘德华”的一个分类信息为“香港演员”,可以从中得出(刘

德华,出生地,香港)和(刘德华,职业,演员)两组Infobox

方法四:利用百科网站实体正文进行填充

百科实体正文内容是对实体最全面的介绍,包含的信息最为丰富

 

利用百科网站实体正文内容进行填充

基本思路

为每个属性构建一个抽取器

  • 5
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值