阅读笔记:基于知识图谱的知识推理
论文:A review: Knowledge reasoning over knowledge graph
基本概念、定义
- 人工智能算法必须具有推理能力,推理过程必须依赖于知识工程时代的先验知识和经验,大量知识图(KGs),如YAGO,WordNet,Freebase已经开发。KGs包含大量的先验知识,同时也能有效地组织数据。
- 知识图能够从大规模数据中挖掘、组织和有效地管理知识,以提高信息服务质量,为用户提供更智能的服务。所有这些方面都依赖于知识推理对知识图的支持,知识图是推理领域的核心技术之一。知识图的知识推理是为了识别错误,从现有数据中推断出新的结论。通过知识推理,可以导出实体间的新关系,并反馈丰富知识图,支持先进应用。
- 知识推理是利用已知知识推断出新知识的过程。
- 随着互联网数据规模的爆炸式增长,传统的基于人工构建知识库(KBs)的方法已不能适应大数据时代挖掘大量知识的需要。为此,数据驱动的机器推理方法逐渐成为知识推理研究的主流。
知识库的丰富内容为知识推理技术的发展提供了新的机遇和挑战。随着知识表示学习、神经网络等技术的普及,一系列新的推理方法应运而生。
前沿的知识图谱:
- WordNet
WordNet是一个于1985年创建英语词汇数据库。句法集是通过概念语义和词汇关系相互联系的,如狗和哺乳动物之间的IS-A关系或汽车与发动机的部分整体关系。WordNet在信息系统中有着广泛的应用:词义消歧、信息检索、文本分类、文本摘要、机器翻译甚至纵横字谜生成。最新版本WordNet3.0包含15万字,20万个语义关系。 - Freebase
Freebase是一个由社区成员组成的大型协作知识库,由Metaweb构建。包含从Wikipedia、NNDB、时尚模特目录和MusicBrainz等来源获取的数据,以及用户提供的数据。谷歌的知识图部分是由Freebase提供的。目前约有30亿个三元组。 - ** YAGO**
YAGO中的信息是从Wikipedia、WordNet和GeoNames中提取的。YAGO将WordNet的干净分类法与丰富的Wikipedia分类系统相结合,将实体超过35万个类。YAGO将时间维度和空间维度附加到其许多事实和实体上。它从10个不同语言的维基百科中提取并合并实体和事实。目前,YAGO拥有超过1.5亿个实体和关系。YAGO已被用于沃森人工智能系统。 - DBpedia
DBpedia是一个跨语言项目,旨在从Wikipedia项目创建的信息中提取结构化内容。DBpedia与外部数据集(包括Freebase、OpenCyc等)之间有超过4500万个链接。DBpedia使用资源描述框架(RDF)来表示提取的信息。DBpedia的实体在
一致的本体论,包括人、地方、音乐专辑、电影、电子游戏、组织、物种和疾病。DBpedia被用作ibmwatson的Jeopardy中的一个知识源! - wikidata
wikidata是一个多语言、开放、链接、结构化的知识库,可以被人和机器阅读和编辑。它支持超过280种语言版本的Wikipedia,并提供共同的结构化数据源。Wikidata继承了Wikipedia的众包协作机制,并支持基于triples的编辑。它依赖于项目和报表的概念。项表示实体。语句由一个编码的主属性值对组成。 - NELL
Never Ending Language Learning system是一个语义机器学习系统,它可以全天候运行,永远学习阅读网页。NEL的输入包括:
(1)一个初始的本体,它定义了NELL所属的数百个类别和关系希望阅读
(2)10至15种子的例子,每一个类别和关系。有了这些输入,内尔会自动从网络中提取三重事实。
基于知识图谱的知识推理:
目标是利用机器学习的方法来推断实体对之间的潜在关系,并根据现有数据自动识别错误知识,以补充KGs。例如,如果KG包含一个事实,如(Microsoft,IsBasedIn,Seattle),(Seattle,StateLocatedIn,Washington)和(Washington,CountryLocatedIn,USA),那么我们将获得缺少的链接(Microsoft,HeadquarterLocatedIn,USA)。
知识推理的对象不仅是实体之间的属性和关系,还包括实体的属性值和本体的概念层次。例如,如果一个实体的身份证号码属性已知,则可以通过推理获得该实体的性别、年龄和其他属性。
KG基本上是一个语义网络和一个结构化的语义知识库,可以正式解释现实世界中的概念及其关系。基于知识图的推理不仅局限于传统的基于逻辑和规则的推理方法,而且具有多样性。同时,知识图由实例组成,使推理方法更加具体。
近年来,研究人员实现了许多开放式信息抽取(OIE)系统,如textranner,WOE,极大地扩展了知识的数据源。
因此,知识库的丰富内容为知识推理技术的发展提供了新的机遇和挑战。随着知识表示学习、神经网络等技术的普及,一系列新的推理方法应运而生。
推理方法分为三类:
- 基于规则的推理
- 基于分布式表示的推理
- 基于神经网络的推理。
知识图推理的相关应用
- 知识图的完成
- 问题回答
- 推荐系统
基于规则的推理
基于一阶谓词逻辑规则的知识推理
早期的知识推理方法(包括本体推理)受到了广泛的关注,并产生了一系列的推理方法。此外,这些方法包括谓词逻辑推理、本体推理和随机游走推理,可用于知识图的推理。
例如,人际关系推理可以采用一阶谓词逻辑,将关系作为谓词,字符作为变量,用逻辑运算符来表达人际关系,然后设置关系推理的逻辑和约束条件来进行简单的推理。使用一阶谓词逻辑进行推理的过程是下式
(姚明,华斯博宁,上海)∧(上海,中国)⇒(姚明,国籍,中国)
一阶归纳学习(FOIL)(Schoenmackers,Etzioni,Weld,&Davis,2010)是谓词逻辑的一个典型工作,其目的是搜索KG中的所有关系,并获得每个关系的Horn子句集一种预测对应关系是否存在的特征模式。最后,利用机器学习方法得到关系判别模型。
FOIL的相关研究有很多。例如:
- nFOIL和tFOIL(Landwehr、Kersting和Raedt,2007)分别将朴素贝叶斯学习方案和树增强天真贝叶斯与箔片相结合。nFOIL通过朴素贝叶斯的概率得分来指导结构搜索。tFOIL放松了天真的Bayes假设,允许子句之间存在额外的概率依赖关系。
- kFOIL公司(Landwehr,Passerini,De Raedt& Frasconi,2010)将FOIL的规则学习算法和核方法结合起来,从关系表示中导出一组特征。因此,FOIL搜索可以作为内核方法中的特征的相关子句。
- Nakashole,Sozio,Suchanek,and Theobald(2012)提出了一种结合软推理规则和硬规则的不确定RDF知识库的查询时间一阶推理方法。软规则用于派生新事实,而硬规则用于强制实现一致性。
KG和推断事实之间的约束。Galárraga,Teflioudi,Hose,and Suchanek(2013)提出了在知识图上挖掘Horn规则的AMIE系统。将这些规则应用到知识库系统中,可以得到新的事实,用于知识图的补充和错误的检测。
传统的FOIL算法在小规模知识库上具有较高的推理精度。此外,实验结果表明,实体-关系关联模型具有较强的推理能力。然而,由于大规模知识图中实体和关系的复杂性和多样性,很难穷尽所有的推理模式。另外,穷举算法的高复杂度和低效率使得原FOIL算法不适合于大规模图的推理。
为了解决这个问题,Galárraga,Teflioudi,Hose,和 Suchanek(2015)通过一系列修剪和查询重写技术将AMIE扩展到AMIE+,以挖掘更大的知识库。此外,AMIE+通过考虑类型信息和使用联合推理提高了预测精度。demeter、Rocktäschel和Riedel(2016b)提出了一种可伸缩的方法,将一阶蕴涵引入关系表示中,以改进大规模KG推理。
同时,Wang和Li(2015)提出了一种新的规则学习方法RDF2Rules。RDF2Rules挖掘频繁谓词循环(FPC)来并行化此过程。由于适当的修剪策略,处理大规模KBs比AMIE+更有效。为了有效地形式化语义网和推理,一些研究者提出了一种可处理的语言,称为描述逻辑(DL)。描述逻辑是在命题逻辑和一阶谓词逻辑的基础上发展起来的本体推理的重要基础。描述逻辑的目标是平衡表示能力和推理复杂度。它能够为知识图提供定义良好的语义和强大的推理工具,满足本体构建、集成和演化的需要。因此,它是一种理想的本体语言。使用DL表示的知识库由术语公理(TBox)和断言公理(ABox)组成(Lee,Lewicki,Girolami,&Sejnowski,1999)。TBox由一组声明概念和角色的一般属性的包含断言组成。例如,断言是指说明一个概念表示另一个概念的专门化。ABox包含对单个对象的断言。知识库的一致性是知识图推理的基本问题。通过TBox和ABox将知识图中的复杂实体或关系推理转化为一致性检测问题,从而细化和实现知识推理。
Halaschek-Wiener,Parsia,Sirin,and Kalyanpur(2006)提出了一种描述逻辑推理算法用于在ABoxes断言的添加和删除下对知识图进行补充。它提供了对波动/流数据进行推理的关键步骤。Calvanese,De Giacomo,Lembo,Lenzerini,and Rosati(2006)提出了一种基于认知的一阶查询语言EQL,该语言能够解释查询描述逻辑的不完整性知识图表。为了扩展具有模糊能力的经典描述逻辑,提出了大量的模糊描述逻辑。Li,Xu,Lu,and Kang(2006)提出了一种新的离散tableau算法来解决FSHI知识库与一般TBoxes的可满足性问题,为模糊DLs中实现一般TBoxes推理提供了一种新的途径。此外,Stoilos、Stamou、Pan、Tzouvaras和Horrocks(2007)利用模糊集理论对DL进行了扩展,以表示知识和执行推理任务。为了装备描述逻辑来处理元知识,Krötzsch、Marx、Ozaki和Thost(2018)用有限的属性值对集合(称为属性描述逻辑)来丰富DL概念和角色,用于知识图推理。现有的DL推理机不为用户提供解释服务。为了解决这一问题,Bienvenu、Bourgaux和Goasdoué(2019)提出了一个框架,使推理系统在不一致容忍语义下具有解释能力。
基于规则的知识推理
基于规则的知识推理模型的基本思想是利用简单的规则或统计特征进行推理。
NELLs语言学习系统(NELLs)的推理组件(Mitchell等人,2015)学习概率规则,然后在人工筛选后实例化规则,最后从其他学习到的关系实例中推断出一个新的关系实例。
SpassYAGO通过将三元组抽象为等效规则类。Paulheim和Bizer(2014)提出SDType和SDValidate,利用属性和类型的统计分布来完成类型和错误检测。SDType使用属性的头实体和尾部实体位置中类型的统计分布来预测实体的类型。SDValidate计算每个语句的相对谓词频率(RPF),RPF值低表示不正确。
Jang和Megawati(2015)提出了一种评估质量的新方法知识图。他们在分析数据模式后,选择出现频率较高的模式作为生成的测试模式来评估知识图的质量。
Wang,Mazaitis,and Cohen(2013)和Wang