AMIE关联规则挖掘

AMIE(Association Rule Mining under Incomplete Evidence)是一个用于从不完全知识图谱中挖掘关联规则的算法。它是为了处理在知识图谱中存在的不完全性和不确定性而设计的,能够发现实体和关系之间的有意义的模式和关联。

AMIE的计算过程可以概述如下:

  1. 规则生成:AMIE从知识图谱中生成候选规则。这些规则的形式通常是head←body,其中head和body都是带有变量的三元组。例如,一个规则可能是 Parent(X,Y)←Father(X,Y)。

  2. 规则评估:对于每个候选规则,AMIE计算其支持度和置信度。支持度是指满足规则的实例数量,置信度是满足body的实例中满足head的比例。例如,如果规则是 Parent(X,Y)←Father(X,Y),支持度就是知识图谱中有多少对(X, Y)满足这个规则,置信度则是这些对中有多少同时满足Parent关系。

  3. 规则修剪:AMIE通过对支持度和置信度的阈值进行过滤,保留有意义和高置信度的规则。这有助于减少噪声和无意义的规则。

  4. 规则扩展:AMIE会通过不断扩展规则的body部分来生成更复杂的规则,并重新计算其支持度和置信度。扩展规则可以帮助发现更深层次的关联。例如,从 Parent(X,Y)←Father(X,Y)扩展到Parent(X,Y)←Father(X,Y)∧Married(X,Z)。

  5. 迭代过程:上述步骤会反复进行,直到无法再生成新的有意义的规则为止。

具体计算过程

以下是AMIE算法的一些具体步骤和计算公式:

  1. 支持度计算

    \mathrm{Support}(R)=|\{(X,Y)\mid\mathrm{body}(X,Y)\wedge\mathrm{head}(X,Y)\}|

    其中,R是规则,body(X,Y)和 head(X,Y)是规则的body和head部分。

  2. 置信度计算

    \mathrm{Confidence}(R)=\frac{\mathrm{Support}(R)}{|\{(X,Y)\mid\mathrm{body}(X,Y)\}|}

    置信度表示在满足body部分的所有实例中,有多少也满足head部分。

  3. 标准置信度(Standard Confidence)

    \text{Standard Confidence}(R)=\frac{|\{(X,Y)\mid\mathrm{body}(X,Y)\wedge\mathrm{head}(X,Y)\}|}{|\{(X,Y)\mid\mathrm{body}(X,Y)\}|}
  4. PCA置信度(PCA Confidence)

    \mathrm{PCA~Confidence}(R)=\frac{|\{(X,Y)\mid\mathrm{body}(X,Y)\land\mathrm{head}(X,Y)\}|}{|\{(X,Y)\mid\mathrm{body}(X,Y)\land\exists Z\mathrm{~head}(X,Z)\}|}

    PCA置信度考虑了知识图谱中可能存在的未观测到的三元组,因此通常比标准置信度更稳健。

AMIE算法通过以上步骤,能够有效地从不完全的知识图谱中挖掘出高质量的关联规则,帮助理解和利用知识图谱中的隐含信息。

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
最近几年,例如YAGO和DBpedia等大规模知识库发展有了很大的进步。知识库提供了大量的不同种类的实体信息,如人、国家、河流、城市大学等等,同时知识库包含了大量的在实体(entity)间的关系既事实(fact)。当今的知识库包含的数据量是巨大的通常有百万个实体和上亿个描述实体间关系的事实数据。 虽然目前的知识库存在大量的实体和事实数据,但是这样大规模的数据仍然不完整。目前构建知识库的方法主要有两种,一种是从大量的文本中抽取事实但这种方法必然会带来大量的噪声数据,第二是人工扩展,但这样的方法对于时间的开销是极大的。如果确保一个知识库是完整的则必须花费很大的努力来抽取大量的事实,并检查事实的正确性,因为只有正确的事实加入到知识库中才是有意义的。同时知识库的本身由于有足够的信息可以推理出更多的新的事实。例如有这样一个例子,一个知识库包含一组事实是孩子c有一个妈妈m,这样可以推理得出孩子妈妈的丈夫f很可能是孩子的父亲。该逻辑规则形式化的描述如下: motherof(m,c)∧marriedTo(m,f)⟹fatherof(f,c) 挖掘这种规则可帮助做一下四种事情:1、利用这种规则来推理出新的事实,而这些被挖掘出的新的事实可以使知识库更完整。2、这些规则可以检测出知识库潜在的错误例如一个陈述是一个与一个男孩无关的人是这个男孩的父亲,这样的陈述很可能是错误的。3、有很多推理工具依赖其他工具提供规则,所以这些被挖掘出来的规则可以用于推理。4、这些规则描述一个普遍的规律,这些规律可以帮我我们理解分析知识库中的数据,如找到一些国家通常与说同一种语言的国家交易。或结婚是一个对称关系,或使用同一个乐器的音乐家通常互相影响等等。 AMIE的目标是从RDF格式的知识库中挖掘如上所述的逻辑规则,在语义网(Semantic Web)中存在大量的RDF知识库如YAGO、Freebase和DBpedia等。这些知识库使用RDF三元组(S,P,O)提供二元关系(binary relation)的描述。由于知识库一般只包含正例而(S,P,O)没有反例(S,¬P,O),所以RDF这样的知识库中仅能通过正例来推理。进一步来说在RDF知识库上的操作是基于开放世界假设(OWA)的。在开放世界假设下,一个事实没有在知识库中存在那么我们不能说这个事实是错误的,只能说这个陈述是未知的。这与标准的数据库在封闭世界假设的设定有本质上的区别。例如在知识库中没有包含marry(a,b),在封闭世界假设中我们可以得出这个a没有和b结婚而在开放世界假设下我们只能说a可能结婚了也可能单身。 压缩包内包含AMIE可运行源代码与相应文档资料,欢迎下载参考
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值