这篇博客是根据学习查看复旦大学知识工厂实验室的徐波老师报告整合资料后的笔记,报告内容详略得当,结构清晰,干货满满,于是便自己整理并记下来,方便以后深度学习。
什么是知识图谱?
知识图谱本质上是一种语义网络。
主要由节点,边,目标三大块组成。
其中节点包括:实体、概念。边包括:实体与实体、实体与概念、概念与概念。目标包括:描述真实世界中存在的各种实体或概念。
简介中文开放百科知识图谱CN-DBpedia
是目前最大规模的开放百科中文知识图谱之一。
涵盖数千万实体和数亿的关系。
• 百科实体数 16,537,283
• 百科关系数 213,506,696
相关知识服务API累计调用量已达2.6亿次。
CN-DBpedia主要应用场景
语义搜索、智能问答、超级验证码。
CN-DBpedia系统构架
报告中,老师主要介绍了三大模块:抽取模块、归一化模块、填充模块。
抽取模块:
归一化模块:
填充模块:
方法一:利用其它知识图谱进行填充。
• e.g. YAGO利用Geonames(一个包含超过1000万地点位置信息的地理知识 图谱)来增加YAGO实体的地理位置信息
方法二:利用百科网站的其他语种进行填充
• e.g. Wikipedia
方法三:利用百科网站实体标签进行填充
• e.g. 如“刘德华”的一个分类信息为“香港演员”,可以从中得出(刘
德华,出生地,香港)和(刘德华,职业,演员)两组Infobox
方法四:利用百科网站实体正文进行填充
• 百科实体正文内容是对实体最全面的介绍,包含的信息最为丰富
利用百科网站实体正文内容进行填充
基本思路
• 为每个属性构建一个抽取器