词语相似度方法
本文是作者参看相关资料的简单总结,具体内容的链接可以参看下文的参考链接。
词语相似度计算在很多领域中都有广泛的应用,如信息检索、信息抽取、文本分类、机器翻译等方面。目前常用的词语相似度计算方法有两种:基于世界知识或某种分类体系的方法和基于统计的上下文向量空间模型方法。
(1)基于词典或某种分类体系计算词语相似度
常用的词典有hownet、wordnet和同义词词林,这三种词典的构造方法互不相同,详细介绍参看参考链接和文献。
(2)基于上下文向量空间模型的方法
基于上下文向量空间模型最为著名的莫属于google的Word2vec词语向量化工具,关于word2vec的原理介绍参看链接和文献。word2vec的链接博客作者写的很好,有兴趣的可以自已的看一下。
github上面的word2vec代码:https://github.com/jsksxs360/Word2Vec,作者给了详细的介绍,还有训练好的模型库,有兴趣的可以下载下来进行运行。