国内外知识库

最新推荐文章于 2025-03-10 05:34:53 发布

Class_guy

最新推荐文章于 2025-03-10 05:34:53 发布

阅读量1.8k

点赞数 4

分类专栏： NLP 文章标签：知识库知识图谱

本文链接：https://blog.csdn.net/Class_guy/article/details/99709978

版权

NLP 专栏收录该内容

15 篇文章

订阅专栏

英文：

1.WordNet：依赖专家知识，由人工标注，将英文单词按照单词的语义组成一个大的概念网络。由同义词集和描述同义词集之间的关系构成。词语被聚类为同义词集，每个同义词集表示一个基本的词汇语义概念，词集之间的语义关系包括同义关系、反义关系、上位关系、下位关系、整体关系、部分关系、蕴含关系、因果关系、近似关系等。http://wordnet.princeton.com/

2.Cyc/OpenCyc：依赖专家知识，主要由人工构建，是常识知识图谱。由大量实体和关系以及支持推理的常识规则构成。包含50万实体，接近3万个关系以及500万事实。openCyc是Cyc的一个子集，可免费使用，包含24万实体，200万事实。Cyc中不仅包含了大量实体和关系，还包含用于推理的常识规则，并提供多种推理引擎，支持演绎推理和归纳推理，同时也提供扩展推理机制的模块。http://www.cyc.com/

3.ConceptNet：常识知识图谱，由大量概念以及描述它们之间关系的常识构成，比较侧重词与词之间的关系，完全免费开放，支持多语言。http://www.conceptnet.io/

4.SIDER(Side Effect Resource)：医学知识图谱，主要包含了已经上市的药物及其记录在册的副作用，这些数据可以为相关疾病的治疗提供依据。

5.IMDB(Internet Movie Database)：电影知识图谱，与1990年创建，截止012年，共收录132383部作品资料以及4530159位人物资料。

6.MusicBrainz：音乐知识图谱。

7.YAGO：依赖Wikipedia和WordNet，是百科知识图谱。YAGO的实体关系数据都依赖人工严格定义的规则从Wikipedia中自动抽取产生，包括实体之间的上下位(IS-A)和实体属性等关系。使用RDFS语言与OWL语言描述。http://mpii.de/yago

8.Freebase：依靠Wikipedia+领域知识+群体智能方法，是百科知识图谱。包含5813万实体、32亿个实体关系三元组，2000多个概念类型和近4万个属性，是公开可获取的规模最大的知识图谱之一。目前freebase已经停止更新，已有的freebase数据可以下载得到。http://www.freebase.com/

9.DBpedia：Wikipedia和专家知识，百科知识图谱。主要从Wikipedia中的结构化数据中抽取知识。英文版DBpedia描述了600万个实体，其中460万的实体包含摘要信息，153万实体具有地理位置信息，160的实体具有描述信息。另外，520万个实体可以链接到本体上，包括150万的任务，81万的地点、49万的作品、27.5万的机构、30.1万的物种和5000的疾病。总共包含95亿事实三元组。http://depedia.org/

10.Wikidata：freebase+群体智能，百科知识图谱。目标是构建全球最大的免费知识库。http://www.wikidata.org/

11.NELL：依赖机器学习技术构建。本身是一套语言学习系统，每天不间断地执行两项任务：阅读和学习。阅读任务是从文本中获取知识，并添加到内部知识库；学习任务是使用机器学习算法获取新知识，巩固和扩展对知识的理解。NELL可以抽取大量的事实（实体关系三元组），并标注所抽取的迭代轮数、时间及系统置信度，可以供人工进行校验。http://rtw.mlcmu.edu/

12.BabelNet：多语言词汇级的语义网络和本体。依赖WordNet+Wikipedia。主要特点是将Wikipedia链接到最常用的英语类义词典WordNet上。它所定义的语义关系主要来源于：Wordnet中所定义的语义关系，总共36.4万条关系；Wikipedia中非特定的相关关系，例如，国籍、首都等，总共大约3.8亿条关系。集成了Wordnet在词语关系上的优势和Wikipedia在多语言语料方面的优势，构建成功了目前最大规模的多语言词典知识库。http://babelnet.org/

13.Google Knowledge Graph：基于Freebase

14.Knowledge Vault：基于机器学习。相较于Google之前基于freebase的知识图谱版本，Knowledge Vault不再采用众包的方式进行图谱构建，而是试图通过算法自动搜集网上信息，通过机器学习方法对已有的结构化数据进行集成和融合，将其变成可用知识。已收集了16亿个事实，其中2.71亿事实具有高置信度，其准确率在90%左右。

15.WOE：基于机器学习自动构建

16.TextRunner:致力于从文本中通过识别句子的谓语抽取所有的二元关系。抽取的范围是开放域文本。

16.ReVerb：是TextRunnner的升级版。基于机器学习自动构建，致力于从文本中通过识别句子的谓语抽取所有的二元关系。

17.FrameNet：是一个经典的基于框架表示的知识库，针对词汇级的概念进行框架的建模，它认为大部分词汇的语义能够通过语义框架的形式进行表示。它定义了1000多个不同的框架、10000多个词法单元，总计标注了150000个例句。还定义了8种关系：继承关系、视角关系、子框架关系、前置关系、使动关系、因果关系、使用关系和参考关系。

18.微软Concept Graph: 以概念层次体系为中心的知识图谱。以概念定义和概念之间的IsA关系为主。其主要通过从互联网和网络日志中挖掘来构建，可以用于短文本理解和语义消岐中。http://concept.research.microsoft.com

19.IASO：英文抗生素药物医学知识图谱，由北京大学互联网信息工程研发中（CIRE）开发，IASO是利用自然语言处理与文本挖掘技术，基于大规模医学文本数据，以人机结合的方式研发的英文药物医学知识图谱。IASO知识图谱基于DO，IDO，NCBI，HPO和DrugBank等数据库，以及在线百科，权威医学文献等高质量医学数据资源构建而成的。涵盖507种传染病及其治疗方法，332个不同的感染部位，936种系统相关症状，371种并发症，838,407种细菌，341种抗生素及其介绍，1,504对抗生素和细菌之间的反应速率（抗菌谱），431对药物相互作用关系，以及86对抗生素特异性群体的禁忌关系。http://www.iasokg.com/

中文：

1.HowNet：典型的语言认知知识图谱/常识知识库，致力于描述认知世界中人们对词语概念的理解，基于词语义原，揭示词语的最小语义单元的含义。以概念为中心，基于义原描述了概念与概念之间以及概念所具有的属性之间的关系，每一个概念可以又多种语言的词汇进行描述。目前包含800多个义原，11000个词语。

2.CN-DBpedia：由复旦大学知识工场实验室研发并维护的大规模通用领域结构化百科，其前身是复旦GDM中文知识图谱，是国内最早推出的也是目前最大规模的开放百科中文知识图谱，涵盖数千万实体和数亿级的关系。CN-DBpedia以通用百科知识沉淀为主线，以垂直纵深领域图谱积累为支线，致力于为机器语义理解提供了丰富的背景知识，为实现机器语言认知提供必要支撑。CN-DBpedia已经从百科领域延伸至法律、工商、金融、文娱、科技、军事、教育、医疗等十多个垂直领域，为各类行业智能化应用提供支撑性知识服务。http://kw.fudan.edu.cn/cndbpedia/intro/

3.zhishi.me：目前，它涵盖了三大中国百科全书：百度百科，互动百科和中文维基百科。其中，14307056个实体来自百度百科，5521163个实体来自互动百科，903462个实体来自中文维基百科。http://zhishi.me

4.cnSchema: 一个基于社区维护的开放知识图谱Schema标准。cnSchema分类、数据类型的词汇集包括了上千种概念、属性和关系等常用概念定义，以支持知识图谱数据的通用性、复用性和流动性。http://cnschema.rog

5.中医药知识服务平台：集成了中医药领域的领域本体、术语资源（包括中医药学语言系统、中医临床术语集、中医古籍语言系统等），以及证候、中药、方剂等领域的知识库，面向中医专家提供知识检索、知识问答、知识浏览等服务。http://www.tcmkb.cn

后续有发现其它知识图谱会补充进来。