知识库介绍

qianqiangediaoLM

已于 2023-03-10 18:17:08 修改

阅读量499

点赞数

分类专栏：知识增强情感原因文章标签：知识图谱人工智能自然语言处理

于 2023-03-10 18:11:18 首次发布

本文链接：https://blog.csdn.net/qianqiangediaoLM/article/details/129447910

版权

知识增强情感原因专栏收录该内容

3 篇文章 1 订阅

订阅专栏

1. Social IQA

Social IQA[1] 是第一个面向社交情况常识推理的大规模基准，包含38000个覆盖日常情形中社交情感和智慧的多选问题，涵盖了关于在情境中描述人们的行为的各种类型的推断，对于基于预训练语言模型的现有问答模型具有挑战性。值得注意的是，SOCIAL IQA也可以作为常识知识迁移学习的资源，在多个常识推理任务（Winograd Schemas，COPA）上达到了最好的结果。数据集示例如图1所示
图1 SOCIAL IQA数据集示例

2. ConceptNet

ConceptNet[2] 是一个已成功应用于NLI系统中的常识知识库。最早源于MIT媒体实验室的Open Mind Common Sense（OMCS）项目，OMCS项目是由著名AI专家Marvin Minsky于1999年创立，该项目从在线用户那里收集了free text的常识知识。这个语义网络最初包含超过160万条常识知识，这些知识表示为300,000个实体节点之间的链接，但是后续版本对其进行了扩展并添加了更多功能。最新版本的ConceptNet 5.5包含800万个节点之间的2100万个链接，并增加了Cyc，WordNet和DBpedia等其他资源，它包括来自多语言资源的知识，以及来自其他知识图谱的知识的链接。与Cyc相比，ConceptNet采用了非形式化、更加接近自然语言的描述；与链接数据和谷歌知识图谱相比，ConceptNet比较侧重于词与词之间的关系。与WordNet相比，包含的关系类型多。ConceptNet完全免费开放，并支持多种语言。
图6 ConceptNet示例

3.ATOMIC

ATOMIC[3] 是一个包含87万条推理常识的知识图谱，包含870k条推理常识，相较于常见的基于本体论分类条目的知识图谱，该知识库专注于“if…then…”关系的知识。作者提出了9种类型的因果联系来区分原因-效果、主体-主题、自愿-非自愿、行动-心理状态。例如：事件“x防御了y的攻击”，我们能够马上推理出 x的动机是“保护自己”、 x这么做的先决条件是接受了一定的防身技巧、 x可能的特点是强壮勇敢。事件的结果可能是：x会感觉生气并报警、 y可能会觉得害怕并想要逃走。通过生成式训练，作者发现神经网络模型可以从该图谱中获取简单的常识推理能力。
在这里插入图片描述

4.GenericsKB

GenericsKB[4] 是AI2提出的包含340万个通用句子的大型非结构化知识库，通用句子是指表达一般事实的语句，例如“Dogs bark”和“Trees remove carbon dioxide from the atmosphere”。这是第一个包含天然存在的通用句子的大型资源库，而不是抽取或众包的三元组，因此富含高质量、一般性、语义完整的陈述。GenericsKB主要从三个大型文本源中提取：Waterloo语料库、Simple Wikipedia和ARC语料库。其中的所有句子均带有主题词，上下文句子和学习到的置信度评分。GenericsKB-Best中还提供了一个经过过滤的高质量子集，其中包含1,020,868个句子。
在这里插入图片描述

5.Wikipedia

任何自然语言的文字甚至网页都可以视为非结构化知识的来源。Wikipedia就是一个常用的大型非结构化知识库，Wikipedia语料库包含有关各种领域的440万篇文章，并且都是人工编纂的。由Wikipedia延伸出的一个知识库是 WikiData[5] ，WikiData的目标是构建一个免费开放、多语言、任何人或机器都可以编辑修改的大规模链接知识库。WikiData由维基百科的组织者于2012年启动，继承了Wikipedia的众包协作的机制，但与Wikipedia不同，WikiData支持的是以三元组为基础的知识条目（Items）的自由编辑。一个三元组代表一个关于该条目的陈述（Statements）。例如可以给“地球”的条目增加“<地球，地表面积是，五亿平方公里>”的三元组陈述

参考文献

[1] Sap, M.; Rashkin, H.; Chen, D.; Le Bras, R.; and Choi, Y.2019c. Social IQA: Commonsense Reasoning about SocialInteractions. InProceedings of the 2019 Conference on Em-pirical Methods in Natural Language Processing and the 9thInternational Joint Conference on Natural Language Pro-cessing (EMNLP-IJCNLP), 4453–4463.
[2] Speer, R.; Chin, J.; and Havasi, C. 2017. Conceptnet 5.5: Anopen multilingual graph of general knowledge. In AAAI.
[3] Maarten Sap, Ronan Le Bras, Emily Allaway, ChandraBhagavatula, Nicholas Lourie, Hannah Rashkin, Bren-dan Roof, Noah A Smith, and Yejin Choi. Atomic: anatlas of machine commonsense for if-then reasoning. InAAAI, volume 33, pages 3027–3035, 2019.
[4] Sumithra Bhakthavatsalam, Chloe Anastasiades, and Peter Clark. 2020. Genericskb: A knowledge base of generic statements. arXiv preprintarXiv: 2005.00660.
[5] WikiData官网：https://www.wikidata.org/wiki/Wikidata:Main_Page

注：本文参考哈工大SCIR 孙月晴博客，原稿网址：https://www.sohu.com/a/430727520_657157?qq-pf-to=pcqq.c2c 请读者们可以同时参考