潜在关系映射引擎:算法与实验

摘要:许多人工智能研究者和认知科学家已经关于分析是认识的核心这个问题进行了讨论。其中在计算模型的类比决策分析方面最有形象力的著作是结构影响理论(SMT)及其执行中的结构映射引擎(SME)。一个结构映射引擎的局限性在于对于复杂的手工编码表达的要求。为了消除手工编码申述的要求我们介绍的潜在关系映射引擎(LRME)联合了结构映射引擎和潜在关联分析(LRA)的观点。潜在关系映射引擎在一系列单词之间构建了类比映射,运用一大批原始文本自动的发现其单词间的语义关系。我们评价潜在关系映射引擎是一套关于20个类比映射问题的设备,10个基于科学家的分析,另外10个基于共同的隐喻。潜在关系映射引擎达在这20个类比问题上到了人类级性能。我们将潜在关系映射引擎与各种替代方法进行比较并发现他们不能达到与之相同的性能水平。

关键词潜在关系映射引擎、结构映射引擎、类比映射

1.引言  

当我们遇到一个问题时,我们总是试图去回想过去遇到过的相似的问题,以便于我们能把现在的问题转化为从过去的经验中得到的知识。我们将过去的情况和现在的情况进行分析,并且使用类推进行知识转化。

French在他的计算模型类别决策的调查中,引用结构映射理论及其执行中的结构映射引擎作为最重要的模拟类比决策理论。在潜在关系映射引擎中,一个类别映射M:A→B表示从一个源头A到一个目标B。

Gentner认为存在这两种相似,分别是归因相似和关系相似。归因和关系相似的区别可能是对于谓词逻辑的理解。一个属性是一个论点的前提,比如在碰撞中(X, Y )时,就表示X与Y碰撞。

结构映射引擎涉及基于关系相似的映射到基于归因相似的映射,比如,结构映射引擎能够构建从一个太阳系的陈述(源头)到一个玻尔原子模型的陈述(目标)。太阳被映射到原子核,行星被映射到电子,质量被映射到电荷。注意到这个映射侧重于关系相似。太阳和原子核在属性表述上截然不同的:太阳是巨大的而原子核是微小的。与此同时,行星和电子几乎不存在归因相似。另一方面,行星围绕着太阳就好像电子围绕着原子核一样。太阳的质量吸引着行星的质量就好像原子核的电荷吸引着电子的电荷。

Gentner(1991)提供了儿童主要依靠归因相似来映射,随着他们成熟逐渐切换到关系相似这个证据。她运用仅仅是外观涉及主要基于归因相似的映射的表述,类推涉及主要基于归因相似的映射,并且字面相似的涉及归因相似和关系相似相混合的映射。由于我们使用类比映射解决问题和作出预测,我们应该注重结构,特别是因果关系,透过现象看本质属性的东西(Gentner,  1983)。这个太阳系统到玻尔原子模型的类推表明超越外观,看到基本结构的重要性。

图表1和2展示了被SME用来作为类推太阳系到原子模型输入的函数表达式(Falkenhainer  et  al.,  1989)。Chalmers,  French以及 Hofstadter(1992)批评了SME的对于复杂的手工编码表达的要求。他们认为最艰难的工作是由创造高水平手工编码表

达的人们来完成的而不是SME。

图表1:太阳系在SME中的表述

Gentner,  Forbus以及他们的同事已经尝试着在他们近期的工作中使用SME避免手工编码。CogSketch系统能够简单的素描中产生函数表达式(Forbus,  Usher,  Lovett,  Lockwood,  &  Wetzel,  2008)。发明系统能够从定性的物理模型中产生函数表达式(Yan & Forbus, 2005)。学习阅读器系统能够从自然语言文学中产生函数表达式(Forbus et al., 2007)。这些系统都不需要函数的输入。

图表2:在SME中的玻尔原子模型(Falkenhainer et al., 1989)。

然而,CogSketch系统的用户接口要求画素描的人在素描中定义基本的组成部分并用基于OpenCyc的知识标注它们。Forbus et al.(2008)注意到OpenCyc包含了多于58000个手工编码的概念,并且为了支持CogSketch系统他们在OpenCyc之中增加了进一步的手工编码的概念。发明系统要求使用者使用定性物理的方法手工编码一个物理模型(Yan  &  Forbus,  2005)。学习阅读器系统使用来自ResearchCyc的多于28000个的短语模式(Forbus et al., 2007)。很明显,SME仍然需要大量的手工编码的知识。

在本论文中的工作是避免复杂的手工编码表述的错误。我们的方法是联合SME (Falkenhainer et al., 1989)和潜在关联分析(LRA)的想法。我们称由此产生的算法潜在关系映射引擎(LRME)。我们使用矢量代表两个术语之间的语言关系,它们中的元素来自大量语料库的原始文本的模式频率。因为语义关系自动的来源于语料库,LRME并不需要手工编码申述的关系。它只需要一系列来源于源头的术语和一系列来源于目标的术语。给出这两列术语之后,LRME使用语料库构建术语间关系的申述,然后构造一个两个术语列之间的映射。

图表1和图表2表示了在太阳系和玻尔原子模型之间类比的LRME的输入和输出。尽管在输入术语时存在着人工错误,它仍然被认为在输入方面比SME出错较少的。(将图表1中的暑假1和2进行对比)。

科学的类比,就好像是太阳系和玻尔原子模型之间的类比,可能看起来深奥,但是我们相信类比决策在我们生活中是无处不在的。一个这个理论的潜在的实际应用就是语义角色的定义(Gildea  &  Jurafsky,  2002)。因为这些角色是相关的而不是归因的,于是把语义角色标记为映射问题是合适的。

比如,裁决系统的语义框架包含了语义角色比如判断,评价,原因,而声明框架包含声明者,收件人,信息,主题和媒介(Gildea & Jurafsky, 2002)。

                     图表 1:  在 LRME中输入的表述.

 图表 2: 在 LRME中输出的表述     

定义语义角色的工作是自动的由它们的角色来标记的,就好像下面的例子(Gildea & Jurafsky, 2002):

* [判断  她] 责备 [评价政府] [原因 没有提供足够的帮助]。

* [发言者 我们] 谈论 [关于建议的话题] [基于电话的媒介]。

如果我们有一组标准的标记语句和一组不标记的测试语句,我们就可以把标记文本语句的工作看成是在标准语句(源头)和测试语句(目标)之间映射的一个问题。图表3表示“她怎样职责政府因为没有提供足够的帮助造成的失败。”可能被映射到“他们职责公司污染环境。”一旦这个映射被找到,我们就能够从源到目标把它以标记语义角色的形式转化为知识。

图表3:标记语义角色作为类比映射

      在第二部分,我们简要的讨论LRME背后的假设。然后我们在第三部份精确的定义由

LRME执行的工作,是一种特殊的映射形式。LRME建立在潜在的关联分析上,因此在第四部

分我们总结了LRA。在第五部分我们讨论了LRME的潜在应用。

      为了评价LRME我们创造了20个类比映射问题,十个科学类比问题(Holyoak  &

Thagard, 1995)和十个共同的隐喻问题(Lako? & Johnson,  1980)。表格1是十个科学类比

映射之一。我们尝试的解决办法在表格2。为了验证我们尝试的方法,我们给我们的同事一

系列术语(好像表格1中一样)并要求他们在这些术语之间产生映射。第六部分呈现的是这

些实验的结果。通过这20个问题,我们尝试的方法达到的平均的满意度是87.6%。

      在第七部分给出了LRME算法的概述,以及它的关于二十个问题的评价。LRME达到了

91.5%的精确度。这个性能和人类平均的87.6%的区别不是统计的明显。

      第八部分检查了进行类比映射工作的各种各样的替代的工作。最好的方法达到76.8%

的精确度,但是这个方法要求手工编码词性标记。这个性能在LRME和人类表现是显著的。

      在第九部分我们讨论了在前面几章的出的结果产生的问题。相似的工作在第十部分里

描述,在11部分中考虑到了进一步的工作和限制,并在12章中得出结论。

2. 指导假说

在这样部分我们列出了已经指导过LRME设计的一些假设。我们在本文中所呈现的结果并不

是一定需要这些假设的,但这些可能对读者理解我们背后的方法有帮助。

  1. 类比和语义的关系:类比是在语义关系的基础上的(Gentner, 1983)。比如,太

阳系和玻尔原子模型的类比是基于我们理解的太阳系的概念的语义关系与玻尔原子模型中的概念的语义关系的相似性。

  1. 共发生和语义关系:两个术语当且仅当它们尝试着在相对大的语料库和相对小的

窗口共发生。有趣的语义关系引起共发生而且共发生是有趣语义关系的可靠指标。

  1. 含义和语义关系:单词间关系的含义比一个单独单词的含义更多。单个单词显得

含糊和多义,通过把单词配对,我们限制了它们可能的含义。通过把单词组成句子,句子中单词的多个关系,我们进一步的限制了它们可能的含义。如果我们注意单词的配对而不是单个单词,词义的消歧不会是问题。如果把一个单词从和其他单词间的关系中分离出来它将没有意义。

      4. 分布格局和语义关系:两个术语共发生时在语义关系和格式之间有很多的映射。例如,引起关系可以表述为“X引起Y”,“Y来源于X”,“Y归因于X”,“Y因为X”等等。同时这个“Y来源于X”可以是原因结果(X,Y)(“生病来源于细菌”)的一种表达,或者是来源实体(“X,Y”)(“桔子来源于西班牙”)。然而对于给定的X和Y,X和Y共发生的统计分布模式是X和Y之间语义关系的可靠标志。

考虑到LRME工作的范围,我们相信它的成功给予这些假设一些支持。

3.工作

在本文中,我们检查产生类比映射的算法。为了简单起见,我们限制了双射映射的工作;也就是说,映射都是内射(一对一;在源映射和相同的目标映射中没有实例)并且满射(到…之上;源术语覆盖了所有的目标术语;离开了映射就没有目标术语)。我们假设这些实体能够作为输入被映射。正式地说,算法的输入I是两个术语,A和B。

                     I={<A,B>}                                        (1)

因为这些映射是双射,A和B必须包含相同的词m。

                     A={a1,a2,…am}                                    (2)  

                     B={b1,b2,…bm}                                    (3)

一个术语ai或bj,可能包括一个单独的单词(行星)或者是两个和多个术语的复合(太阳系统)。这些单词可能是演讲的任何部分(名词,动词,形容词或者是副词)。这个输出O是一个从A到B的双射。

                     O={M:A→B}                                       (4)

                     M(ai)∈B                                        (5)

                     M(A)={M(a1),M(a2),…M(am)}=B                    (6)

我们这里考虑的算法能够接受一批多个作为输入的独立问题并为每个产生一个映射作为输出。

                     I={<A1,B1>,<A2,B2>,…,<An,Bn>}                     (7)

                     O={M1:A1→B1,M2:A2→B2,…,Mn:An→Bn}               (8)

假设A中的术语是一些任意顺序的a。

                     a = a1, a2,…, am                                 (9)

映射函数M:A→B,给出一个a,决定一个B的独一无二的顺序b。

b = M (a1), M(a2),… , M (am)                      (10)

同时,对于给定的a,B中的一个顺序b,定义一个独一无二的函数M。因为在B中有m!个顺序,于是有m!个A到B的可能映射。这个工作是在m!个映射中找到最好的。(第六部分表明了那有是最好的存在高度的共识)。

      让P (A, B)成为所有m!中从A到B双射中的一组。(P代表置换,因为每个映射对应于一个置换。)             

                                               

P (A, B) = {M1, M2, . . . , Mm }                                 (11)

                 m = |A| = |B |                                                (12)

m! = |P (A, B)|                                                (13)

在接下来的实验中,m平均是7并且最大是9,所以m!大概是7!=5040并且最大是9!=362880。这对于我们详尽地搜索P (A, B)是可行的。

      我们开发了产生映射的两种基本计算方法,基于归因相似的方法和基于相关相似的方法,两个单词间的归因映射,sima(a,b)∈R,取决于a和b之间的性能关联程度。关联度越高,归因映射的相似性越高。两组词之间的相关相似性simr(a : b, c : d) ∈R,取决于a : b和c : d之间关系的关联程度。关联度越高,相关相似性越高。比如,狼和狗有相对较高的归因相似性,然而狗:吠和猫:喵有相对较高的相关相似性。

      归因相似算法要求最大化A和B归因相似性的和的映射(如果有多个最大化和的映射,我们通过随机抽取打破这个束缚)。

                            (14)

相关映射算法要求映射Mr最大化相关相似性的和。

    (15)

在(15)中我们假设simr是对称的。比如,狗:吠和猫:喵之间的相关相似性是和吠:狗和喵:猫的相关相似性是一致的。

                           (16)

我们同样假设simr(a:a,b:b)并不是有趣的;比如,它可能是所有a和b的恒定的值。所以(15)中i总是比j小的。

定义scorer (M)和scorea (M)如下:

现在Mr和Me用scorer (M)和scorea (M)定义。

根据simr得出Mr是最好的映射,根据sima得出Ma是最好的映射。

     回想起Gentner在第一部分所用的术语,仅仅是外观(大部分地归因相似),类比(大部分地相关相似)和字面相似(归因和关系相似相混合)。我们把Mr看做好是基于类推的抽象映射模型而Ma仅仅是外观模型。为了字面相似我们可以联合Mr和Ma,但是在我们联合它们之间必须小心scorer (M)和scorea (M)(我们在9.2部分将会试着联合它们)。

4.潜在的关联分析

LRME运用一个简单的潜在关联分析模式来计算单词组之间的关系关联度。在我们呈现LRME之间我们会简单的描述LRA过去的工作。

     LRA把一组单词作为输入I并且将输入中的任何两种词间的关系相似性simr (ai:bj, ai :bj )作为输出O。

LRA是被设计用来评价比例类比的。比例类比的形式是a :b ::c :d,意思是a是对应b和c是对应d。比如,mason : stone :: carpenter : wood的意思是“石匠对应石头而木匠对应木头”。石匠是运用石头的艺术家而木匠是运用木头的艺术家。

      我们在第三部分是一个特殊的双射类比映射,|A| = |B | = m = 2。例如,在(23)中a1 :a2 ::b1 :b2是和M0等价的。

在(17)中scorer(M)的定义中,我们得到结果M0。

也就是,比例类比石匠:石头::木匠:木头的质量是有simr(石匠:石头::木匠:木头)给定的。

       比例类比也可以由归因相似来衡量。在(18)中scorea(M)的定义,我们可以得出以下的M0结果。

           (25)   

      

对于归因相似性,比例类比石匠:石头::木匠:木头的质量是sima(石匠,木匠)+sima(石

头,木头)。

      LRA仅仅管理比例类比。LRME主要的贡献是当m>2时扩大LRA的比例类比到双

射映射。

      Turney描述十个LRA的潜在应用:认识比例类比,结构映射理论,隐喻建模,分类

语义关系,词义消歧,信息提取,回答问题,词库自动生成并定义语义角色。两个应用(比例类比评价和分类语义关系)被视为国家先进成果。

      Turney在国家税务总局高考测试中解决374个多项选择比例类推问题中对相似性能的关系(24)和归因的相似性(25)进行比较。LRA被用来衡量关系相似性并且以不同的词汇和语料库为基础来衡量归因相似性。在374个SAT问题中LRA达到了56%的精确度,与评价人类水平57%没有什么明显的区别。在另一方面,归因相似性的最佳性能是35%。结果表明归因相似比随机猜测更好,但是没有关系相似好。这个结果和Gentner的成熟的人的相似性判断的结果一致。

      Turney也在名词修饰语中的分类语义关系任务中的应用LRA。名词修饰语的表达是一个词组,就好像是激光打印机头部名词(打印机)之前改性(激光)。工作是在名词和修饰语之间定义语义关系。在这种情况下,关系是文书;激光是一种工具所使用的打印机。在一组600个手工标记名词修饰语对和五个不同类别的语义关系中,LRA的准确度达到58%。

      Turney利用多种LRA来解决四种不同语言的测试,在SAT的类比问题上达到了52%的精确度,在TOEFL  考试中达到了76%的精确度,在区分同义词反义词上达到了75%的精确度,在区别相似的,相关联的和既相关又相似的单词上达到了77%的精确度。相同的核心算法被应用在四个算法中,没有调整参数的特别测试

5.LRME的应用

因为LRME是LRA的延长,LRA的每个潜在应用也是LRME的潜在应用。LMRE优于LRA的是当m>2时处理双射类比的能力( m  =  |A| =  |B |)。在这一部分我们考虑受益于这个能力的各种应用。

       在7.2中我们在科学类比和共同隐喻上评价LMRE,支持处理较大术语的两个应用优势。在第1部分,我们看到了包括两个以上的术语的语义关系的定义,并且我们相信LRME在标记语义关系方面优于LRA。

       语义关系的定义通常假设关系是二进制的;也就是说,一个语义关系是两个术语间的联系(Rosario  &  Hearst,  2001;  Nastase &  Szpakowicz,  2003;  Turney,  2006;  Girju  et  al.,  2007)。Yuret观察到二进制关系由基本的n元关系所联系。例如,Nastase and Szpakowicz确定了生物分类的30二进制语义关系。图表4表明了Nastase  and  Szpakowicz如何认为 6二元关系可以涵盖一个5元的关系代理:工具:行动: 影响 :主题。一个代理运用一个工具来表现一个行动。某些人或东西是影响行动。整个事件有主题来概括。

图表4:Nastase  and  Szpakowicz如何认为六元语义关系可以视为1 5元语义关系不同片段。

       在SemEval任务4中,当我们扩大二元关系的基本n元关系,我们发现更容易手动标记的数据。我们认为,这也将有利于扩大自动分类的语义关系。在9.3部分的结果表明当m>2时,我们在第四部分讨论的所有应用程序可能得益于能够处理双射映射。

6.映射问题

为了评价我们的算法、类比映射,我们建立了20测绘问题,并在附录A中给出。这20个问题中包含10个来源于Holyoak 和 Thagard第八章的科学类比例子,另外10个隐喻问题来源于Lako 和 Johnson。

       附录A中的表格表示了每个20个问题的打算映射。为了验证这些映射我们请我们在信息研究所的同事参加实验。2007年2月13号该实验在个人通信的Web服务器上被执行(只有在我们研究所访问)并且通过使用Web浏览器匿名参加。有39个志愿者开始实验并且22个坚持到了最后。在我们的分析中,我们仅仅使用完成所有映射问题的22个参加者。

       参加者的指示都在附录A。问题的序列和问题中术语的顺序是为每位参与者随机分开的,由于顺序消除了任何影响。表5显示了我们的意图的协议映射和参与者所产生的映射通过这20个问题,平均的统一度是87.6%,比许多语言诠释任务的统一度要高。这项协议是令人印象深刻,因为与会者没有起码的指示和培训

图表5:我们打算映射和22名参加者的映射的平均统一度。见附录A的细节

       m栏给出了每个映射问题的源术语的术语数目(和目标术语的术语数目一样)。对于一般的问题来说m=7。表5中的第三栏给出了一个总结映射的助记符。注意到助记符不能被用来当作任何算法的输入,也没有在实验中向参与者给出。

       在表5中每个单独的映射问题符合的数据都平均超过每个问题的m的映射。附录A给出了更加详细的资料,展示了在m映射中单独的映射的符合度。二十个问题包含了140个单独的映射(20*7=140)。附录A展示了这140个问题的每个映射的符合度达到50%以上。也就是说,在每个情况下,参加者的大多数与我们设想中的映射是一致的(有两个符合度是50%。附录A中表格14的问题A5和表格16的问题M5。)

       如果我们选择的映射是22个参加者大多数选择的映射,那么我们讲的得到一个完美的分数在所有的20个问题中。如果我们把每个问题都尝试过m!个映射,我们将得到更精确的结果,并且选择那些最大化在m映射中符合每个单独的映射的参加者数目的映射,我们将在所有20个问题中达到100%的分数。这是在附录A中给出的假设的映射的强有力的证据。

       在第三部分,我们运用Genter的类别—仅仅是外观涉及主要基于归因相似的映射的表述,类推涉及主要基于归因相似的映射,并且字面相似的涉及归因相似和关系相似相混合的映射—来映射Mr和Ma,Mr是根据simr的最好的映射而Ma是根据sima最好的映射。20个映射问题被选作为类推问题,也就是说,附录A中假设的映射等同于关系映射,Mr;simr最大化关系相似性。我们尽量避免仅仅是外观和字面的相似。

       在第七部分,我们运用20个映射问题来评价关系相似算法(LRME),在第八部分,我们运用它们来评价几种归因相似算法。我们的前提是LRME执行明显优于其他关于20个映射问题的任何归因映射算法,因为它们是类推问题(不仅仅是外观问题和字面相似问题)。

我们期望归因和关系映射算法能够执行地和字面相似问题一样好,并且我们期望仅仅是外观问题归因算法能够比关系算法更适合,因为我们最初对论文感兴趣的是类比决策。

       我们的目标是测试这个在LRME的输出和各种映射算法的输出存在真实的,实际的,有效的,可测量的区别的假设。一个怀疑论者可能断定归因相似性sima(a,c)+sima(b,d)产生关系相似性simr(a:b,c:d);因此我们的关系映射算法是对一种虚幻问题的复杂解决方法。一种稍微持怀疑论的人认为归因相似和关系相似的认知区别是在认知心理学中的一个有效的区别,但是我们的关系映射算法并没有这种区别。为了验证我们的前提并且反驳这些怀疑论者的论断,我们创造了20个类比决策问题,并且我们将展示LRME处理这些明显的优于各种归因相似算法。

7. 潜在关系映射引擎

潜在关系映射引擎要求映射Mr最大化关系相似度的和。

我们通过详细地评价所有的可能来搜索Mr。束缚被随机地打破。我们运用一个简单的LRA形式来计算simr。

7.1算法

简单的说,LRME的想法是构建一个X向量的配对模式,行和术语对相对应,列和模式相对应。例如,行Xi:可能对应于太阳:太阳系这个术语并且列X:j可能对应于“*X是Y的中心*”这个模式。在这些模式中,*是一个外符,能够匹配任何一个单词。在X中一个元素Xij的价值基于X:j这个形式的频率当X和Y在X:i中被实例化时。例如,我们以“*X是Y的中心*”这个模式为例并将X:Y实例化为太阳:太阳系,然后我们得到“*太阳是太阳系的中心*” 的模式,因此元素Xij的价值是以“*太阳是太阳系的中心*” 的模式在语料库里的频率为基础的。向量X是一个平滑的截断奇异值分解并且两组术语间的关系相似性simr是由在X中两个相对应的行矢量之间角的余弦来给出的。

       在更多的细节中,LRME把一列映射问题当作输入I并产生一列相应的映射问题作为输出O。

在接下来的实验中,所有的20个问题(附录A)是在一组中进行的(n=20)。

        第一步是建立一个包含输入I中的所有属于对的列表R,在I中的每一个映射问题<A,B>,我们在R中添加了所有术语对ai:aj,因此ai和aj是A中的成员,i≠j并添加了bi:bj,因此bi和bj是B中的成员,i≠j。如果

,那么从A和B中分别有m(m-1)对。A在R中一个典型的术语对可能是太阳:太阳系。我们不允许在R中重复;R是一列对类型,不是对令牌。对于我们20个映射问题来说,R是1694个对的列表。

        对于R中每一个对r,我们在包含r对的语料库中列出词组的清单S(r)。让ai:aj包含在对r中。我们以下面的形式在语料库中搜索所有词组:

如果ai:aj在R中,那么aj:ai也在R中,于是我们找到了两种顺序的词组,S(ai: aj) and S(ai : a j) 。我们使用的搜索模板和Turney 的一样。

        在接下来的实验中,我们在5*1010个英语单词的语料库中搜索,包括网页收集的网页检索器。为了从语料库中检索词组我们运用了Wumpus,一种从大型语料库中进行检索的搜索引擎。

       在R中1694对中,我们在语料库中发现了总共1996464个词组,平均每对1180个词组。对于词组对r=太阳:太阳系系统,在S(r)一个典型的词组s可能是“以太阳为中心的太阳能系统的说明”。

       接下来我们在我们找到的词组的基础上构建了一个C模型列表。在R中的每对r,r=ai:aj.如果我们在S(r)找到词组s,那么就用X替换ai用Y替换aj。剩下的词组要么就是*或者是被*替换。然后我们在s中用Y替换ai用X替换aj,并用万能符号*替换剩下的词组或者是让它们维持原样。如果在s中还有n个留下,在ai和aj交换后,我们从s中产生 了

个形式,并且我们把这些形式添加到C中。我们只把新的形式添加到C中;也就是说,C是模式类别的列表,不是形式令牌,在C中没有重复。

       例如,对于词组对太阳:太阳系,我们发现这个词组“以太阳为中心的太阳能系统的说明”。当我们用X:Y来替换ai:aj时,我们有“以X为中心的Y的说明”。有三个剩余词组,于是我们能够产生八种形式,就好像是“一个X  * Y说明”,“ 一个以X为中心的Y *”,“ * X  * Y说明”等等。每个形式被添加到C中。然后我们用Y:X替换ai:aj,产生了“一个以Y为中心的X”。这又给了我们另外8个形式,就好像“一个以Y为中心的X*”。因此词组“一个以太阳为中心的太阳系的说明”产生了16个形式被我们添加到C中。

      现在我们修改R,构建一个词组对的列表对应于行中向量F的频率。当术语在任何顺序时我们从R中移走了任何一对词组以至于在语料库中找不到任何词组。在r中添加ai:aj。如果S(ai: aj) 和S(aj: ai)都是空的我们就从R中移除r。我们移除这些行是因为它们可能对应在向量F中对应零矢量。这使得R中的对数从1694减少到1662。使得nr成为R中的对数。

      接下来,为了构造将对应F向量频率的列的一个对列表我们修改C。在接下来的实验中,在这个阶段,C包含了数以万计的形式,相对于标准的台式电脑有效处理来说太多了。我们需要减少C中的形式数量到可控制的数量。我们选择最多的词组对共同的形式。让c成为C中的一种形式。让r成为R中的一对。入果S(r)中有s,这样就有和c相同的从s中产生而来的一种形式,那么我们就说r是从c中产生而来的词组对中的一个。我们在C中选择形式在词组对R中以降序的形式来产生每个形式,并且我们从选择好的形式中选择最高的tnr形式。在Turney之后,我们把参数t设置为20,因此C被减少到33240中形式。让nc成为C中词组对的数目。

     既然行R和列C已经确定,我们能够构建向量F的频率。让ri成为R中第i个术语,让cj成为C中第j种形式。我们将cj形式和ri术语对实例化为X和Y。F中元素fij是语料库中实例形式的频率。

     注意到我们没有必要再在语料库中为fij搜索实例形式来找到其频率。在创造每个形式的过程中,我们能够为每个词组跟踪词组的产生方式。我们通过检查我们记录过的已经由ri产生的形式来得到fij的频率。 

     接下来是把向量F中行的频率转换到X形式来加强测量的相似性,Turney运用由Landauer and Dumais建议的日志熵变。这是一种tf_idf的转换形式,给令人吃惊的统计向量F中的元素加重。然而Bullinaria and Levy进来通过叫PPMIC的统计方法获得了好的结果;因此LRME运用PPMIC。F中的频率是用来计算可能性,从中我们能够计算出向量中每个元素的点互信息(PMI)。任何一个有PMI的元素都被设置为0。

让ri成为R中的第i对术语,让cj成为C中的第j个形式。在(33)中pij是实例ri以cj形式下的估计的可能性,pi*是ri的估计可能性,p*j是cj的估计可能性。如果ri和cj是独立的那么pi*p*j= pij,因此pmiij是0。如果在ri中的术语间存在有趣的语义关系并且形式cj捕捉了那种语义关系的一个方面,如果ri和cj是独立的那么我们可以期望pij变的更大,因此我们应找到大于pi*p*j的pij,接着确定pmiij。在另一方面,完全来自不同的网域的术语可能相互避免,我们发现其中的pmiij是负的。PPMIC是当形式cj捕捉了ri术语间语义关系的一个方面时被设计用来高度评价Xij的;否则,Xij等于0,说明cj不能够表述ri术语间的语义关系。

     在我们的实验中,F有着4.6%的密度,X的密度是3.8%。X的低密度是由于由PPMIC转换为0的负的pmiij。

     现在我们采用截断奇异值分解使X压缩。我们运用SVDLIBC来计算X的SVDSVDLIBC是为稀疏矩阵设计的。SVD把X分解成三个UΣVT矩阵,其中U和V是正交表列,Σ对角线矩阵的奇异值。如果X是r的排名,那么Σ也是r的排名。当k<r时让Σk成为顶端k的奇异值的奇异矩阵,让Uk和Vk成为通过从U和K中选择对应的列产生的矩阵。矩阵UkΣkVkT是k的最接近原始矩阵X的排名矩阵,在这个意义下,能最小化近似误差。也就是说,在所有的r的排名

向量之上

最小化,

是Frobenius范数。我们可以把向量UkΣkVkT当作原始向量X的压缩版本。在Turney之后,我们把参数k设置为300。

      在R中两对术语之间的关系相似性simr是向量UkΣkVkT的对应行的内部产品在行被归为单位长度后。我们能够通过去掉Vk简化计算。我们取得向量UkΣkVkT并把每行长度单位化。让W成为结果向量。现在让Z成为WWT,nr*nr的方形矩阵,这个矩阵包含了R中所有对的联合的余弦。

      在I中的<A,B>映射问题,让a:a成为A中的一个术语对,让b:b成为B中的术语对。假设ri=a:a,rj=b:b,ri和rj是R中第i和第j个词组对。然后simr(a:a,b:b)=zij,zij是Z中第i列和第j列的元素。如果a:a和b:b有一个不在R中,S(a:a)或者S(b:b)是空的,那么我们就把相似性设为0。最后,对于I中的每一个映射问题,我们输出最大化关系相似性和的映射Mr。

这里用来计算simr的LRA简单化的形式与Turney所使用的LRA不一样。在LRME中,用别名来产生术语对的候补形式是没有用的。在LRME中,没有形态学处理术语。LRME运用PPMIC来处理原始频率,而不是日志熵。在Turney之后,LRME运用稍微有点不同的搜索模板并把LRME行数nc设置为nr,而不是使用常量。在7.2部分,我们评价这些变化中的两种的影响,但是我们没有测试另外的改变带来的影响,这是由简单化和效率化驱动所致的。

7.2实验

我们在Perl中实施LRME,为了在语料库中进行搜索为了计算SVD向Wumpus和向SVDLIBC提出外部的要求。我们运用Perl 网:Tel网包裹和Wumpus进行进程间的交流,PDL包裹用于矩阵操作,并且列表:Permutor包裹产生置换。

我们开展下面的实验在双核心AMD Opteron 64计算机上操作,在64位的Linux系统下运行。大多数的运行时间花费在寻找语料库的词组上。Wumpus需要花费16个小时27分钟来获取1,996,464个词组。剩下的步骤需要花费52分钟,SVDE需要10分钟。运行时间可以减半通过使用RAID 0来加速磁盘访问。

表格6展示了LRME在它的基本配置下的性能。为了比较,表格5中已经展示了22个志愿者与我们想要的映射之间的符合度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

等天晴i

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值