利用word分词来计算文本相似度

最新推荐文章于 2020-07-03 16:12:51 发布

chuanzhuanxian8669

最新推荐文章于 2020-07-03 16:12:51 发布

阅读量84

点赞数

原文链接：https://my.oschina.net/stevie/blog/692095

版权

word分词提供了多种文本相似度计算方式：

方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度

实现类：org.apdplat.word.analysis.CosineTextSimilarity

用法如下：

 
         String text1 =  
         "我爱购物" 
         ; 
        
 
         String text2 =  
         "我爱读书" 
         ; 
        
 
         String text3 =  
         "他是黑客" 
         ; 
        
 
         TextSimilarity textSimilarity =  
         new  
         CosineTextSimilarity(); 
        
 
         double  
         score1pk1 = textSimilarity.similarScore(text1, text1); 
        
 
         double  
         score1pk2 = textSimilarity.similarScore(text1, text2); 
        
 
         double  
         score1pk3 = textSimilarity.similarScore(text1, text3); 
        
 
         double  
         score2pk2 = textSimilarity.similarScore(text2, text2); 
        
 
         double  
         score2pk3 = textSimilarity.similarScore(text2, text3); 
        
 
         double  
         score3pk3 = textSimilarity.similarScore(text3, text3); 
        
 
         System.out.println(text1+ 
         " 和 " 
         +text1+ 
         " 的相似度分值：" 
         +score1pk1); 
        
 
         System.out.println(text1+ 
         " 和 " 
         +text2+ 
         " 的相似度分值：" 
         +score1pk2); 
        
 
         System.out.println(text1+ 
         " 和 " 
         +text3+ 
         " 的相似度分值：" 
         +score1pk3); 
        
 
         System.out.println(text2+ 
         " 和 " 
         +text2+ 
         " 的相似度分值：" 
         +score2pk2); 
        
 
         System.out.println(text2+ 
         " 和 " 
         +text3+ 
         " 的相似度分值：" 
         +score2pk3); 
        
 
         System.out.println(text3+ 
         " 和 " 
         +text3+ 
         " 的相似度分值：" 
         +score3pk3); 
        

运行结果如下：

 
         我爱购物 和 我爱购物 的相似度分值： 
         1.0 
        
         我爱购物 和 我爱读书 的相似度分值： 
         0.67 
        
         我爱购物 和 他是黑客 的相似度分值： 
         0.0 
        
         我爱读书 和 我爱读书 的相似度分值： 
         1.0 
        
         我爱读书 和 他是黑客 的相似度分值： 
         0.0 
        
         他是黑客 和 他是黑客 的相似度分值： 
         1.0

方式二：简单共有词，通过计算两篇文档共有的词的总字符数除以最长文档字符数来评估他们的相似度

实现类：org.apdplat.word.analysis.SimpleTextSimilarity

用法如下：

 
         String text1 =  
         "我爱购物" 
         ; 
        
 
         String text2 =  
         "我爱读书" 
         ; 
        
 
         String text3 =  
         "他是黑客" 
         ; 
        
 
         TextSimilarity textSimilarity =  
         new  
         SimpleTextSimilarity(); 
        
 
         double  
         score1pk1 = textSimilarity.similarScore(text1, text1); 
        
 
         double  
         score1pk2 = textSimilarity.similarScore(text1, text2); 
        
 
         double  
         score1pk3 = textSimilarity.similarScore(text1, text3); 
        
 
         double  
         score2pk2 = textSimilarity.similarScore(text2, text2); 
        
 
         double  
         score2pk3 = textSimilarity.similarScore(text2, text3); 
        
 
         double  
         score3pk3 = textSimilarity.similarScore(text3, text3); 
        
 
         System.out.println(text1+ 
         " 和 " 
         +text1+ 
         " 的相似度分值：" 
         +score1pk1); 
        
 
         System.out.println(text1+ 
         " 和 " 
         +text2+ 
         " 的相似度分值：" 
         +score1pk2); 
        
 
         System.out.println(text1+ 
         " 和 " 
         +text3+ 
         " 的相似度分值：" 
         +score1pk3); 
        
 
         System.out.println(text2+ 
         " 和 " 
         +text2+ 
         " 的相似度分值：" 
         +score2pk2); 
        
 
         System.out.println(text2+ 
         " 和 " 
         +text3+ 
         " 的相似度分值：" 
         +score2pk3); 
        
 
         System.out.println(text3+ 
         " 和 " 
         +text3+ 
         " 的相似度分值：" 
         +score3pk3); 
        

运行结果如下：

 
         我爱购物 和 我爱购物 的相似度分值： 
         1.0 
        
         我爱购物 和 我爱读书 的相似度分值： 
         0.5 
        
         我爱购物 和 他是黑客 的相似度分值： 
         0.0 
        
         我爱读书 和 我爱读书 的相似度分值： 
         1.0 
        
         我爱读书 和 他是黑客 的相似度分值： 
         0.0 
        
         他是黑客 和 他是黑客 的相似度分值： 
         1.0

方式三：编辑距离，通过计算两个字串之间由一个转成另一个所需的最少编辑操作次数来评估他们的相似度

实现类：org.apdplat.word.analysis.EditDistanceTextSimilarity

用法如下：

 
         String text1 =  
         "我爱购物" 
         ; 
        
 
         String text2 =  
         "我爱读书" 
         ; 
        
 
         String text3 =  
         "他是黑客" 
         ; 
        
 
         Similarity textSimilarity =  
         new  
         EditDistanceTextSimilarity(); 
        
 
         double  
         score1pk1 = textSimilarity.similarScore(text1, text1); 
        
 
         double  
         score1pk2 = textSimilarity.similarScore(text1, text2); 
        
 
         double  
         score1pk3 = textSimilarity.similarScore(text1, text3); 
        
 
         double  
         score2pk2 = textSimilarity.similarScore(text2, text2); 
        
 
         double  
         score2pk3 = textSimilarity.similarScore(text2, text3); 
        
 
         double  
         score3pk3 = textSimilarity.similarScore(text3, text3); 
        
 
         System.out.println(text1+ 
         " 和 " 
         +text1+ 
         " 的相似度分值：" 
         +score1pk1); 
        
 
         System.out.println(text1+ 
         " 和 " 
         +text2+ 
         " 的相似度分值：" 
         +score1pk2); 
        
 
         System.out.println(text1+ 
         " 和 " 
         +text3+ 
         " 的相似度分值：" 
         +score1pk3); 
        
 
         System.out.println(text2+ 
         " 和 " 
         +text2+ 
         " 的相似度分值：" 
         +score2pk2); 
        
 
         System.out.println(text2+ 
         " 和 " 
         +text3+ 
         " 的相似度分值：" 
         +score2pk3); 
        
 
         System.out.println(text3+ 
         " 和 " 
         +text3+ 
         " 的相似度分值：" 
         +score3pk3); 
        

运行结果如下：

 
         我爱购物 和 我爱购物 的相似度分值： 
         1.0 
        
         我爱购物 和 我爱读书 的相似度分值： 
         0.5 
        
         我爱购物 和 他是黑客 的相似度分值： 
         0.0 
        
         我爱读书 和 我爱读书 的相似度分值： 
         1.0 
        
         我爱读书 和 他是黑客 的相似度分值： 
         0.0 
        
         他是黑客 和 他是黑客 的相似度分值： 
         1.0

方式四：SimHash + 汉明距离，先使用SimHash把不同长度的文本映射为等长文本，然后再计算等长文本的汉明距离

实现类：org.apdplat.word.analysis.SimHashPlusHammingDistanceTextSimilarity

用法如下：

 
         String text1 =  
         "我爱购物" 
         ; 
        
 
         String text2 =  
         "我爱读书" 
         ; 
        
 
         String text3 =  
         "他是黑客" 
         ; 
        
 
         TextSimilarity textSimilarity =  
         new  
         SimHashPlusHammingDistanceTextSimilarity(); 
        
 
         double  
         score1pk1 = textSimilarity.similarScore(text1, text1); 
        
 
         double  
         score1pk2 = textSimilarity.similarScore(text1, text2); 
        
 
         double  
         score1pk3 = textSimilarity.similarScore(text1, text3); 
        
 
         double  
         score2pk2 = textSimilarity.similarScore(text2, text2); 
        
 
         double  
         score2pk3 = textSimilarity.similarScore(text2, text3); 
        
 
         double  
         score3pk3 = textSimilarity.similarScore(text3, text3); 
        
 
         System.out.println(text1+ 
         " 和 " 
         +text1+ 
         " 的相似度分值：" 
         +score1pk1); 
        
 
         System.out.println(text1+ 
         " 和 " 
         +text2+ 
         " 的相似度分值：" 
         +score1pk2); 
        
 
         System.out.println(text1+ 
         " 和 " 
         +text3+ 
         " 的相似度分值：" 
         +score1pk3); 
        
 
         System.out.println(text2+ 
         " 和 " 
         +text2+ 
         " 的相似度分值：" 
         +score2pk2); 
        
 
         System.out.println(text2+ 
         " 和 " 
         +text3+ 
         " 的相似度分值：" 
         +score2pk3); 
        
 
         System.out.println(text3+ 
         " 和 " 
         +text3+ 
         " 的相似度分值：" 
         +score3pk3); 
        

运行结果如下：

 
         我爱购物 和 我爱购物 的相似度分值： 
         1.0 
        
         我爱购物 和 我爱读书 的相似度分值： 
         0.95 
        
         我爱购物 和 他是黑客 的相似度分值： 
         0.83 
        
         我爱读书 和 我爱读书 的相似度分值： 
         1.0 
        
         我爱读书 和 他是黑客 的相似度分值： 
         0.86 
        
         他是黑客 和 他是黑客 的相似度分值： 
         1.0

方式五：Jaccard相似性系数，通过计算两个集合交集的大小除以并集的大小来评估他们的相似度

实现类：org.apdplat.word.analysis.JaccardTextSimilarity

用法如下：

 
         String text1 =  
         "我爱购物" 
         ; 
        
 
         String text2 =  
         "我爱读书" 
         ; 
        
 
         String text3 =  
         "他是黑客" 
         ; 
        
 
         TextSimilarity textSimilarity =  
         new  
         JaccardTextSimilarity(); 
        
 
         double  
         score1pk1 = textSimilarity.similarScore(text1, text1); 
        
 
         double  
         score1pk2 = textSimilarity.similarScore(text1, text2); 
        
 
         double  
         score1pk3 = textSimilarity.similarScore(text1, text3); 
        
 
         double  
         score2pk2 = textSimilarity.similarScore(text2, text2); 
        
 
         double  
         score2pk3 = textSimilarity.similarScore(text2, text3); 
        
 
         double  
         score3pk3 = textSimilarity.similarScore(text3, text3); 
        
 
         System.out.println(text1+ 
         " 和 " 
         +text1+ 
         " 的相似度分值：" 
         +score1pk1); 
        
 
         System.out.println(text1+ 
         " 和 " 
         +text2+ 
         " 的相似度分值：" 
         +score1pk2); 
        
 
         System.out.println(text1+ 
         " 和 " 
         +text3+ 
         " 的相似度分值：" 
         +score1pk3); 
        
 
         System.out.println(text2+ 
         " 和 " 
         +text2+ 
         " 的相似度分值：" 
         +score2pk2); 
        
 
         System.out.println(text2+ 
         " 和 " 
         +text3+ 
         " 的相似度分值：" 
         +score2pk3); 
        
 
         System.out.println(text3+ 
         " 和 " 
         +text3+ 
         " 的相似度分值：" 
         +score3pk3); 
        

运行结果如下：

 
         我爱购物 和 我爱购物 的相似度分值： 
         1.0 
        
         我爱购物 和 我爱读书 的相似度分值： 
         0.5 
        
         我爱购物 和 他是黑客 的相似度分值： 
         0.0 
        
         我爱读书 和 我爱读书 的相似度分值： 
         1.0 
        
         我爱读书 和 他是黑客 的相似度分值： 
         0.0 
        
         他是黑客 和 他是黑客 的相似度分值： 
         1.0

方式六：欧几里得距离（Euclidean Distance），通过计算两点间的距离来评估他们的相似度

实现类：org.apdplat.word.analysis.EuclideanDistanceTextSimilarity

用法如下：

 
         String text1 =  
         "我爱购物" 
         ; 
        
 
         String text2 =  
         "我爱读书" 
         ; 
        
 
         String text3 =  
         "他是黑客" 
         ; 
        
 
         TextSimilarity textSimilarity =  
         new  
         EuclideanDistanceTextSimilarity(); 
        
 
         double  
         score1pk1 = textSimilarity.similarScore(text1, text1); 
        
 
         double  
         score1pk2 = textSimilarity.similarScore(text1, text2); 
        
 
         double  
         score1pk3 = textSimilarity.similarScore(text1, text3); 
        
 
         double  
         score2pk2 = textSimilarity.similarScore(text2, text2); 
        
 
         double  
         score2pk3 = textSimilarity.similarScore(text2, text3); 
        
 
         double  
         score3pk3 = textSimilarity.similarScore(text3, text3); 
        
 
         System.out.println(text1+ 
         " 和 " 
         +text1+ 
         " 的相似度分值：" 
         +score1pk1); 
        
 
         System.out.println(text1+ 
         " 和 " 
         +text2+ 
         " 的相似度分值：" 
         +score1pk2); 
        
 
         System.out.println(text1+ 
         " 和 " 
         +text3+ 
         " 的相似度分值：" 
         +score1pk3); 
        
 
         System.out.println(text2+ 
         " 和 " 
         +text2+ 
         " 的相似度分值：" 
         +score2pk2); 
        
 
         System.out.println(text2+ 
         " 和 " 
         +text3+ 
         " 的相似度分值：" 
         +score2pk3); 
        
 
         System.out.println(text3+ 
         " 和 " 
         +text3+ 
         " 的相似度分值：" 
         +score3pk3); 
        

运行结果如下：

 
         我爱购物 和 我爱购物 的相似度分值： 
         1.0 
        
         我爱购物 和 我爱读书 的相似度分值： 
         0.41 
        
         我爱购物 和 他是黑客 的相似度分值： 
         0.29 
        
         我爱读书 和 我爱读书 的相似度分值： 
         1.0 
        
         我爱读书 和 他是黑客 的相似度分值： 
         0.29 
        
         他是黑客 和 他是黑客 的相似度分值： 
         1.0

方式七：曼哈顿距离（Manhattan Distance），通过计算两个点在标准坐标系上的绝对轴距总和来评估他们的相似度

实现类：org.apdplat.word.analysis.ManhattanDistanceTextSimilarity

用法如下：

 
         String text1 =  
         "我爱购物" 
         ; 
        
 
         String text2 =  
         "我爱读书" 
         ; 
        
 
         String text3 =  
         "他是黑客" 
         ; 
        
 
         TextSimilarity textSimilarity =  
         new  
         ManhattanDistanceTextSimilarity(); 
        
 
         double  
         score1pk1 = textSimilarity.similarScore(text1, text1); 
        
 
         double  
         score1pk2 = textSimilarity.similarScore(text1, text2); 
        
 
         double  
         score1pk3 = textSimilarity.similarScore(text1, text3); 
        
 
         double  
         score2pk2 = textSimilarity.similarScore(text2, text2); 
        
 
         double  
         score2pk3 = textSimilarity.similarScore(text2, text3); 
        
 
         double  
         score3pk3 = textSimilarity.similarScore(text3, text3); 
        
 
         System.out.println(text1+ 
         " 和 " 
         +text1+ 
         " 的相似度分值：" 
         +score1pk1); 
        
 
         System.out.println(text1+ 
         " 和 " 
         +text2+ 
         " 的相似度分值：" 
         +score1pk2); 
        
 
         System.out.println(text1+ 
         " 和 " 
         +text3+ 
         " 的相似度分值：" 
         +score1pk3); 
        
 
         System.out.println(text2+ 
         " 和 " 
         +text2+ 
         " 的相似度分值：" 
         +score2pk2); 
        
 
         System.out.println(text2+ 
         " 和 " 
         +text3+ 
         " 的相似度分值：" 
         +score2pk3); 
        
 
         System.out.println(text3+ 
         " 和 " 
         +text3+ 
         " 的相似度分值：" 
         +score3pk3); 
        

运行结果如下：

 
         我爱购物 和 我爱购物 的相似度分值： 
         1.0 
        
         我爱购物 和 我爱读书 的相似度分值： 
         0.33 
        
         我爱购物 和 他是黑客 的相似度分值： 
         0.14 
        
         我爱读书 和 我爱读书 的相似度分值： 
         1.0 
        
         我爱读书 和 他是黑客 的相似度分值： 
         0.14 
        
         他是黑客 和 他是黑客 的相似度分值： 
         1.0

转载：http://my.oschina.net/apdplat/blog/417047

转载于:https://my.oschina.net/stevie/blog/692095

chuanzhuanxian8669

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
利用word分词来计算文本相似度

word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： ? ...
复制链接

扫一扫