WikiRelate! Computing Semantic Relatedness Using Wikipedia

上一篇论文中提到了用ESA(显式语义分析)的方法来计算语义相似度,但是通常都是计算句子和句子之间的相似度。要计算词之间的相似度,需要用到扩展技术,也就是将一个词扩展到一个上下文环境中。今天又看到一篇关于计算语义相关性的文章,同样是利用了wiki的资源。题目是《WikiRelate! Computing Semantic Relatedness Using Wikipedia》,翻译过来是《WikiRelate! 利用wiki来计算语义相关性》,作者是Strube。

 

摘要

语义相关性表示两个概念再一个分类中又多相关,可以利用一些关系,比如上下位关系以及has-part, is-make-of等等。目前很多工作都是基于Wordnet的,他是一个有着很规范的分类,但是他的问题就在于覆盖率。相反wiki就能够提供足够的概念集合,并且又良好的目录组织。本论文将利用wiki的概念以及分类结构来计算语义相似度。

 

方法

三个方法:

基于路径:在一个分类中,两个节点之间的边数。比如一个常用的方法就是用两个节点公共祖先的深度除以两个节点的深度之和。

基于信息内容:一个思想就是相关性就是两个概念的共享概念的扩展,所以两个概念的相关性可以用他们的公共祖先的信息内容的多少来确定。在wiki中,一个概念的信息内容用这个概念的下位概念的多少来表示。下位概念越多,那么他的信息内容就越多。

基于文本覆盖:第一步也是扩展,词扩展成句子,然后用句子的覆盖来计算相关读。扩展可以用gloss扩展,或者是全文扩展。

 

用wiki计算语义相关性

有了上面的,这一步就非常的简单了。首先是两个词i和j,需要在wiki中抽取出他们的文章,然后是这两个文章的类别。最后就可以利用上面的3个方法进行计算了。

 

最后的实验中有一种利用google相关文档数来做得方法,很有意思。两个词,到google去搜索,然后用他们一起的搜索结果数除以分别搜索的结果数减去一起的结果数。最后的实验对比是用wordnet和SRL(google方法)做得,发现相比来说都差不多,大数据集的时候wiki表现的好点,最好的还是将这三个方法结合起来。google方法在单独结果中表现最好,很有意思。

 

这个论文也是利用wiki来计算相关度的,但是方法还是传统的方法,只不过是利用了wiki来作为背景知识而已。结果显示,并没有多大提高。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值