知识图谱
文章平均质量分 91
小白之比白更白
这个作者很懒,什么都没留下…
展开
-
中文对话数据集
常识对话生成数据集语言:中文常识对话生成数据集(Commonsense Conversation Dataset)包括3,000,000多条对话数据,相关常识知识库包含20,000多个实体,44个关系,120,000多个知识三元组。对话数据由 Reddit 论坛收集而来,经过常识知识库的匹配后,保证其 Post 与 Response 都存在至少一个实体蕴含在一个常识知识三元组中。提供方:清华大学计算机系黄民烈副教授相关论文:Hao Zhou, Tom Yang, Minlie Huang, Haiz原创 2021-07-28 11:11:58 · 4244 阅读 · 2 评论 -
英文对话数据集总结
本篇文章将按照论文里面提到的数据库进行整理。常识知识库(辅助信息)链接:https://conceptnet.io它不仅包含了诸如“巴黎是法国的首都”这样不断真实的世界事实,还包含了作为日常知识一部分的常见概念之间的非正式关系,例如“狗是宠物”。这个特性在我们的实验中是理想的,因为在开放域对话环境中,识别共同概念之间的非正式关系的能力是必要的。为了简单起见,我们删除了包含多词实体的三元组,保留了120,850个三元组,包含21,471个实体和44个关系。对话知识库原网站链接:https://ww原创 2021-07-20 13:26:40 · 3288 阅读 · 0 评论 -
详解准确率、精确率、召回率、F1值的含义
机器学习问题之中,通常需要建立模型来解决具体问题,但对于模型的好坏,也就是模型的泛化能力,如何进行评估呢?很简单,我们可以定一些评价指标,来度量模型的优劣。比如准确率、精确率、召回率、F1值、ROC、AUC等指标,但是你清楚这些指标的具体含义吗?下面我们一起来看看吧。1.混淆矩阵介绍各个指标之前,我们先来了解一下混淆矩阵。假如现在有一个二分类问题,那么预测结果和实际结果两两结合会出现如下四种情况。由于用数字1、0表示不太方便阅读,我们转换一下,用T(True)代表正确、F(Fals.转载 2020-10-30 14:16:44 · 24672 阅读 · 1 评论 -
实体对齐简介
为什么要进行实体对齐? 不同的知识图谱,收集知识的侧重点不同,对于同一个实体,有知识图谱的可能侧重于其本身某个方面的描述,有的知识图谱可能侧重于描述实体与其它实体的关系。比如,对于历史人物曹操的描述,在百度百科、互动百科、维基百科等不同的知识图谱中,描述有一些差别,曹操所属时代,百度百科为东汉,互动百科为东汉末年,维基百科为东汉末期;曹操的主要成就,百度百科为“实行屯田制,安抚流民消灭群雄,统一北方,奠定曹魏政权的基础,开创建安文学,提倡薄葬”,互动百科为“统一北方”,维基百科为“统一了东汉帝国核心原创 2020-11-26 13:54:40 · 8169 阅读 · 3 评论 -
实体对齐方法分类(有监督/无监督)
根据实体对齐任务中是否使用标记数据,实体对齐的方法可以分为有监督方法和无监督方法。其中,无监督实体对齐方法主要可以分为传统的无监督实体对齐方法、基于序列表示学习的实体对齐方法和基于图神经网络模型的实体对齐方法。 参考文献:程瑞,鄂海红,宋美娜. 知识融合中的实体对齐方法简介[Z]. 中国科技论文在线...原创 2020-11-26 14:02:45 · 1908 阅读 · 0 评论 -
属性相似性计算方法总结
基于编辑距离的相似度 Levenshtein距离指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。 例如: 上述转换的Levenshtein距离是3,该方法常常使用动态规划算法进行计算。距离越大,两个属性之间的相似性越低。 Jaro-Winkler距离是一个度量两个字符序列之间的编辑距离的字符串度量标准,是Jaro距离度量标准的一种变体。Jaro距离是两个单词之间由一个转换为另一个所需...原创 2020-11-26 13:59:12 · 3022 阅读 · 0 评论