知识库介绍

1. Social IQA

Social IQA[1] 是第一个面向社交情况常识推理的大规模基准,包含38000个覆盖日常情形中社交情感和智慧的多选问题,涵盖了关于在情境中描述人们的行为的各种类型的推断,对于基于预训练语言模型的现有问答模型具有挑战性。值得注意的是,SOCIAL IQA也可以作为常识知识迁移学习的资源,在多个常识推理任务(Winograd Schemas,COPA)上达到了最好的结果。数据集示例如图1所示
 图1 SOCIAL IQA数据集示例

2. ConceptNet

ConceptNet[2] 是一个已成功应用于NLI系统中的常识知识库。最早源于MIT媒体实验室的Open Mind Common Sense(OMCS)项目,OMCS项目是由著名AI专家Marvin Minsky于1999年创立,该项目从在线用户那里收集了free text的常识知识。这个语义网络最初包含超过160万条常识知识,这些知识表示为300,000个实体节点之间的链接,但是后续版本对其进行了扩展并添加了更多功能。最新版本的ConceptNet 5.5包含800万个节点之间的2100万个链接,并增加了Cyc,WordNet和DBpedia等其他资源,它包括来自多语言资源的知识,以及来自其他知识图谱的知识的链接。与Cyc相比,ConceptNet采用了非形式化、更加接近自然语言的描述;与链接数据和谷歌知识图谱相比,ConceptNet比较侧重于词与词之间的关系。与WordNet相比,包含的关系类型多。ConceptNet完全免费开放,并支持多种语言。
图6 ConceptNet示例

3.ATOMIC

ATOMIC[3] 是一个包含87万条推理常识的知识图谱,包含870k条推理常识,相较于常见的基于本体论分类条目的知识图谱,该知识库专注于“if…then…”关系的知识。作者提出了9种类型的因果联系来区分原因-效果、主体-主题、自愿-非自愿、行动-心理状态。例如:事件“x防御了y的攻击”,我们能够马上推理出 x的动机是“保护自己”、 x这么做的先决条件是接受了一定的防身技巧、 x可能的特点是强壮勇敢。事件的结果可能是:x会感觉生气并报警、 y可能会觉得害怕并想要逃走。通过生成式训练,作者发现神经网络模型可以从该图谱中获取简单的常识推理能力。
在这里插入图片描述

4.GenericsKB

GenericsKB[4] 是AI2提出的包含340万个通用句子的大型非结构化知识库,通用句子是指表达一般事实的语句,例如“Dogs bark”和“Trees remove carbon dioxide from the atmosphere”。这是第一个包含天然存在的通用句子的大型资源库,而不是抽取或众包的三元组,因此富含高质量、一般性、语义完整的陈述。GenericsKB主要从三个大型文本源中提取:Waterloo语料库、Simple Wikipedia和ARC语料库。其中的所有句子均带有主题词,上下文句子和学习到的置信度评分。GenericsKB-Best中还提供了一个经过过滤的高质量子集,其中包含1,020,868个句子。
在这里插入图片描述

5.Wikipedia

任何自然语言的文字甚至网页都可以视为非结构化知识的来源。Wikipedia就是一个常用的大型非结构化知识库,Wikipedia语料库包含有关各种领域的440万篇文章,并且都是人工编纂的。由Wikipedia延伸出的一个知识库是 WikiData[5] ,WikiData的目标是构建一个免费开放、多语言、任何人或机器都可以编辑修改的大规模链接知识库。WikiData由维基百科的组织者于2012年启动,继承了Wikipedia的众包协作的机制,但与Wikipedia不同,WikiData支持的是以三元组为基础的知识条目(Items)的自由编辑。一个三元组代表一个关于该条目的陈述(Statements)。例如可以给“地球”的条目增加“<地球,地表面积是,五亿平方公里>”的三元组陈述

参考文献

  1. [1] Sap, M.; Rashkin, H.; Chen, D.; Le Bras, R.; and Choi, Y.2019c. Social IQA: Commonsense Reasoning about SocialInteractions. InProceedings of the 2019 Conference on Em-pirical Methods in Natural Language Processing and the 9thInternational Joint Conference on Natural Language Pro-cessing (EMNLP-IJCNLP), 4453–4463.
  2. [2] Speer, R.; Chin, J.; and Havasi, C. 2017. Conceptnet 5.5: Anopen multilingual graph of general knowledge. In AAAI.
  3. [3] Maarten Sap, Ronan Le Bras, Emily Allaway, ChandraBhagavatula, Nicholas Lourie, Hannah Rashkin, Bren-dan Roof, Noah A Smith, and Yejin Choi. Atomic: anatlas of machine commonsense for if-then reasoning. InAAAI, volume 33, pages 3027–3035, 2019.
  4. [4] Sumithra Bhakthavatsalam, Chloe Anastasiades, and Peter Clark. 2020. Genericskb: A knowledge base of generic statements. arXiv preprintarXiv: 2005.00660.
  5. [5] WikiData官网:https://www.wikidata.org/wiki/Wikidata:Main_Page

注:本文参考哈工大SCIR 孙月晴博客,原稿网址:https://www.sohu.com/a/430727520_657157?qq-pf-to=pcqq.c2c 请读者们可以同时参考

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值