常用知识图谱详细介绍

常见知识图谱详细介绍
**# 因为任务的需要,所以最近总结了一下目前常见的几个知识图谱,比较详细,例如:Freebase、wikiData、Schema.org、DBPEDIA、YAGO、Wordnet、Conceptnet、Babelnet、OpenKG.cn等## **

分类

: 知识图谱种类

Freebase
数据源: 维基百科
数量: 4428万条实体, 765个类别, 2312676个属性, 61个域, 已经被弃用,数据和种类已经全部迁移到wikidata上
种类: 人物, 时间, 地点, 事件, 音乐, 电影等
表示形式: RDF三元组, 结构化
试用场景: 信息检索, 问答系统
生成方式: 主要采用社区成员协助方式构建,对单百科数据源进行深度抽取,同时通过开源免费共享方式众筹数据
特点: 基于RDF三元组模型, 底层采用图数据库进行存储,并且不对顶层本体做非常严格的控制,用户可以创建和编辑类和关系的定义
WikiData
数据源: 维基百科、维基导游、维基字典和文库
数量: 350种语言,2500万个实体以及7000万个声明,支持数据集的完全下载
种类: 人物, 国家, 机构, 事件等
表示形式: 三元组, 结构化
试用场景: 与freebase同属于LOD项目(百科知识图谱),在信息检索和问答系统中有着重要应用
生成方式: 集成wikidata的众包协作机制,同时对单百科数据源进行深度抽取
特点: wikidata与Wikipedia不同,wikidata支持的是以三元组为基础的知识条目(Items)的自由编辑,一个以三元组代表一个关于该条目的陈述
Schema.org
数据源: 从各个网站采用语义标签的方法将语义化的链接数据嵌入网页,通过搜索引擎自动收集和归集数据
数量: 词汇本体包含600多个类, 900多个关系
种类: 个人, 组织机构, 地点, 时间, 医疗, 商品等
表示形式: RDF三元组
试用场景: 供搜索引擎自动收集和归集数据, 快速从网页中抽取语义化数据
生成方式: 采用互联网众包的方式生成和收集高质量的知识图谱
特点: 由bing、Google、Yahool、Yandex等搜索引擎公司共同支持的语义网项目, 支持各个网站采用语义标签的方式将语义化的链接数据嵌入到网页中, 搜索引擎自动搜集和归类,快速从网页中抽取语义化的数据
DBPEDIA
数据源: 从多语言维基百科中抽取结构化知识
数量: 拥有127种语言, 2800万个实体, 30亿个RDF三元组, 根据抽样评测RDF三元组的正确率达到88%
种类: 人, 地点, 音乐, 电影, 组织机构, 疾病等
表示形式: RDF三元组、结构化
试用场景: 隶属于百科知识图谱, 在信息检索和问答系统中有着重要作用
生成方式: 从Wikipedia抽取出来的链接数据集, 与freebase, openCYC, Bio2RDF建立数据链接
特点: 早起的语义网项目, 采用一个较为严格的本体, 包含人、地点, 音乐, 电影, 组织结构, 物种, 疾病等类的定义, 同时采用RDF语义数据模型, 总共包含30亿RDF三元组
YAGO
数据源: 集成了维基百科, wordnet, GeoNames三个来源数据
数量: 10种语言约459万个实体, 2400万个知识三元组, YAGO2包含100多个关系类型, 20万个实体类别, 300万实体和2.2亿个知识三元组, 通过人工测评YAGO三元组的正确率为95%
种类: 人, 城市, 国家, 电影, 机构等
表示形式: 三元组、结构化
试用场景: IBM Wastopn后端知识库调用, 专家系统
生成方式: 集成wikidata, wordnet, GeoNames三个来源数据自动构建方式
特点: YAGO将Wordnet的词汇定义与Wikipedia的分类体系进行了融合集成, 使得Yago具有更加丰富的实体分类体系。YAGO考虑时间和空间知识, 为很多知识条目增加了时间和空间的属性描述
WordNet
数据源: 词典, 百科知识
数量: 15万个词, 20万个语义关系
种类: 名词、动词、形容词、副词、虚词、以词义来组织词汇信息, 有115425个同义词集合, 名词同义词有79685个, 基本覆盖了常用的英语名词词汇等
表示形式: 概念
试用场景: 词典数据库, 主要用于词义消歧, 实体搜索, 主题理解, 实体推荐, 语言概念模板
生成方式: 专家人工构建
特点: 定义了名词、动词、形容词和副词之间的语义关系.例如名词之间的上下位关系(如"猫科动物"是"猫"的上位词),动词之间的蕴含关系(如"打鼾"蕴含着"睡眠")等。以同义词集合作为一个基本单元。
ConceptNet
数据源: 众包, 资源(wikitionary)
数量: 2800万条关系描述, 800多万个节点, 83种语言, 英语词汇表包含150多万个节点
种类: 人, 时间, 事件, 地点等
表示形式: 三元组, 非结构化
试用场景: 更侧重于词与词之间的关系应用, 构建单词嵌入
生成方式: 依靠互联网众包、专家创建和游戏以及资源方式来构建生成
特点: 常识知识库,conceptnet与Cyc相比采用了非形式化、更加接近自然语言的描述,而Cyc采用形式化的谓词逻辑, 与链接数据和谷歌知识图谱相比,其更注重词与词之间的关系。conceptnet完全免费开放,并且支持多种语言
BabelNet
数据源: 对多百科数据源进行融合, BabelNet融合了非常多的知识图谱
数量: 271种语言, 1400万同义词组概念, 36.4万词语关系, 3.8万链接关系, 19亿个RDF三元组, 目前三元组的正确率为91%
种类: 人物, 时间, 地点, 事件, 组织机构等
表示形式: RDF三元组
试用场景: 解决wordnet中非英语语种中数据缺乏的问题, 主题理解, 实体搜索, 实体推荐, 语言概念模板
生成方式: 将wordnet词典与Wikipedia百科集成,首先建立wordNet中的词语Wikipedia的页面标题的映射,然后利用Wikipedia中的多语言链接,再辅以机器翻译技术,来给WordNet增加多种语言的词汇
特点: 多语言词典知识库。BabelNet集成了WordNet在词语关系上的优势和Wikipedia在多语言语料方面的优势,构建成功了目前最大规模的多语言词典知识库
OpenKG.cn
数据源: 中文开放知识图谱, 百度百科, 融合了非常多的知识图谱
数量: 18个分类, 63个知识图谱开发工具, 234个数据集, 16个知识图谱
种类: 音乐, 电影, 书籍, 科学, 地理, 历史, 政府和其他行政机构等
表示形式: 三元组, 结构化
试用场景: 信息检索, 问答系统等NLP具体应用
生成方式: 社区合作, 互联网众包的方式集成数据
特点: 以中文为基础, 知识图谱数据开放, 互联与众包, 同时知识图谱算法, 工具和平台开源开放。
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值