读《基于中文维基百科链接结构与分类体系的语义相关度计算》

标题和摘要

        通过标题可以看出,本文所解决的问题属于语义相关度。和上一篇相同的是方法上依然基于维基百科,不同的是,相对于ESA更加注重文本内容的处理,本文的方法着眼于维基百科中在宏观上形成的逻辑结构,分类体系是一种树形结构,链接结构是一种图形结构。



解决什么问题

        在引言中,作者提出要解决的问题是如何更好地判断两个词语之间的相关性,包括词汇的相似性、关联性和相反性。在回顾了研究现状之后,作者把问题分析的更细致,就是改善传统的基于维基百科方法中单纯的只使用维基百科的链接结构或分类体系,将这两者结合起来计算。


相关工作

        在本部份,作者较为详细地阐述了WLT(基于维基百科链接结构和分类体系的)算法的渊源由来,即基于分类体系的语义相关度算法和基于维基百科链接关系的语义相关度计算(WLM)


基于分类体系的语义相关度算法

        主要有3种方法:第1种是基于边的方法( 如最短路径的方法) ,第2 种是基于节点信息的方法,第3 种方法是前两种方法的综合。对于前两种方法,作者分别给出了具体公式,这里不做过多的分析,只做简单展示。

        第一种方法有刘群 的算法和Wu 等人的算法,公式分别如下

Sim( P1,P2)LIU= α/(d + α);  Sim( C1,C2)WU =

 

基于维基百科链接关系的语义相关度计算

        维基百科中的每一个概念都有一篇相应的文章来描述它,这篇文章中如果含有维基百科中的其他概念,则用超链接将其链向该概念,这样就构成了概念之间的链接图。这一点并不难理解,关键是如何对这种链接图进行数学抽象,作者介绍了David Milne 等人提出了基于维基百科的WLM( WikipediaLink-based Measure) 算法。

        WLM的原理是,首先将要计算的词汇映射到维基百科中的概念,然后通过计算映射的概念的文章之间的相关度来表示词汇之间的语义相关度。第一步中,可以映射的情况分为两种,一是同义词,需要从这个词映射到维基百科中同义词概念,对应于维基百科中的重定向链接; 二是一词多义的情况,需要从这个词映射到表示该词确切含义的维基百科中的概念,对应于维基百科中的消歧义页面。第二步中,计算两个概念的文章之间的相关度分为链出链接和链入链接两种情况讨论,对于链入链接,其公式如下:


对于链出链接,公式如下:



“第三部”分——结合链接关系与分类体系的语义相关度计算

        这部分内容可以概括为“2个改动”和“1个结合”。先说“1个结合”,作者提出所谓的两者相结合一种最为基本的线性结合,即将链接关系得到的值RelLINK和通过分类体系得到的值RelTax通过一个调节系数α,做一个线性之和,公式如下RelCOM=  α*RelLINK+  ( 1 - α) * RelTAX

至于“2个改动”,作者首先改进了WLM 算法中只考虑两个概念文章中的共同的链接,将直接的链接也考虑进去,得到公式:     

RelLINK =其次,WLT算法不再考虑链入链接的相关度,仅考虑链出链接的相关度。

对于RelTAX,等于

 

实验和测评

        本文选用的数据集是广泛使用的WordSimilarity-353 英文测试集和该作者自己构造的中文的测试集Words-240,评价指标为斯皮尔曼相关系数,所做的测试和比较也相对全面,除了对独立使用6种方法处理结果分别用中、英文测试集进行指标对比评价之外,还分别将算法SimLIU、SimWU、ICLinkBased、ICSubCategoryNodes 与WLM 和WLT 算法相结合共8种组合算法进行了测试评价,并结合了图、表、文字多方面的展示分析。最后得出的结论是,就Spearman 相关系数来看,组合算法LIU + WLT的效果最好。

 

读后小结

        本文的创新之处和优势在于将链接结构与分类体系同时加以考虑,且较ESA之类的要处理大量文本内容的方法,所需的计算开销会大大减少。但仅仅只考虑链接结构和分类体系是否全面?尽管文中给出了实验评测,但抱有这样的疑问提供了一种思路上的扩展:对于维基百科,除了已有的用ESA处理文本,和本文中利用其链接结构和分类体系,是否还可以将维基百科中蕴含的内容,包括围观上的内容和宏观上的逻辑结构更丰富地挖掘出来,如上一篇文献中给标题这种体现“位置”信息的词加一个系数α。


 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值