WordSimilarity 词汇相似度计算

WordSimilarity

代码托管在 https://github.com/GarfyCN/WordSimilarity

背景介绍

词汇相似度计算

基于WordSimilarity-353进行实验和分析

工具和数据集

实验数据:

  • WordSimilarity-353

环境:

  • Python 2.7
  • 通过Socks代理访问google.com

工具:

  • nltk (wordnet)
  • gensim (word2vec)
  • scipy (spearman’s)

训练数据:

  • word2vec Text8 (Wikipedia)

评价方法:

  • Spearman’s rank correlation coefficient

算法

WordSimilarity中实现了11种词汇相似度计算算法,分别为:

  • 基于WordNet的方法(包括路径、互信息)
    • wup
    • path
    • lch
    • res
    • lin
    • jcn
  • 基于语料统计(Wikipedia)的方法
    • word2vec (text8)
  • 基于检索页面数量的方法
    • WebJaccard
    • WebOverlap
    • WebDice
    • WebPMI

实验结果

TypeMethodSet1Set2Combined
WordNetwup0.362558462298704860.259055696717453430.33332379890701924
WordNetpath0.326779071390261020.241554121456141470.29944020894638224
WordNetlch0.330724597524825360.240651358686900020.30119153189226205
WordNetres0.376714224001608030.234239314169583050.33087501022995874
WordNetlin0.271703880468081920.128523556227854970.21498948179442201
WordNetjcn0.364555329335665150.158689774967931570.28335379720739173
Word2VecWikipedia0.486562408303689410.482630377554106480.51401301053230553
PageCountWebJaccard0.24650687434376670.263802553148381580.27317170694495496
PageCountWebOverlap0.204993172383169050.269775540237911780.2481105718669597
PageCountWebDice0.24650687434376670.263802553148381580.27317170694495496
PageCountWebPMI0.242076690779679670.302823917994428090.29971820605501664

Spearman's rank correlation coefficient

实验结果分析

  1. 利用Wikipedia语料的方法明显好于基于WordNet和PageCount的方法。其原因在于WordNet的信息量比较有限,一些词语(如CD等)没有被收录到语义词典中,而且收录的词语不同词性之间也无法计算语义相似度。PageCount的则只考虑了页面搜索数量,因此相关系数也较低。

  2. 从总体来看,基于WordNet的方法略好于PageCount方法,因为PageCount方法没有考虑到词语之间的词汇层级关系和语义关系。但是这些特征并不显著影响结果,而且影响程度在不同的数据集上有显著差异。因此可以看到,在Set1上基于WordNet的方法好于PageCount方法,在Set2上则相反。

  3. 在实验中Wikipedia语料仍然有限(text8大小约为100MB),因此如果使用更多语料,可能会获得更好的结果。

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值