利用分词,计算相似度

最新推荐文章于 2022-09-19 22:45:00 发布

渔夫星辰

最新推荐文章于 2022-09-19 22:45:00 发布

阅读量705

点赞数 1

分类专栏： java 文章标签：后端 java

本文链接：https://blog.csdn.net/YuChenIT/article/details/124267816

版权

java 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

本文介绍了Apdplat word库中用于计算文本相似度的几种方法，包括余弦相似度、简单共有词、编辑距离、SimHash+汉明距离、Jaccard相似性和欧几里得/曼哈顿距离。通过实例展示了如何使用这些方法评估字符串间的相似度。

摘要由CSDN通过智能技术生成

1.引入分词jar

<dependency>
	<groupId>org.apdplat</groupId>
	<artifactId>word</artifactId>
	<version>1.3</version>
</dependency>

2. 使用方法,计算重复率(第一次加载较慢,为了使用方便,可在系统启动时,加载)

word分词提供了多种文本相似度计算方式：

方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度

实现类：org.apdplat.word.analysis.CosineTextSimilarity

用法如下：

String text1 = "我爱购物";
String text2 = "我爱读书";
String text3 = "他是黑客";
TextSimilarity textSimilarity = new CosineTextSimilarity();
double score1pk1 = textSimilarity.similarScore(text1, text1);
double score1pk2 = textSimilarity.similarScore(text1, text2);
double score1pk3 = textSimilarity.similarScore(text1, text3);
double score2pk2 = textSimilarity.similarScore(text2, text2);
double score2pk3 = textSimilarity.similarScore(text2, text3);
double score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+" 和 "+text1+" 的相似度分值："+score1pk1);
System.out.println(text1+" 和 "+text2+" 的相似度分值："+score1pk2);
System.out.println(text1+" 和 "+text3+" 的相似度分值："+score1pk3);
System.out.println(text2+" 和 "+text2+" 的相似度分值："+score2pk2);
System.out.println(text2+" 和 "+text3+" 的相似度分值："+score2pk3);
System.out.println(text3+" 和 "+text3+" 的相似度分值："+score3pk3);

运行结果如下：

我爱购物和我爱购物的相似度分值：1.0
我爱购物和我爱读书的相似度分值：0.67
我爱购物和他是黑客的相似度分值：0.0
我爱读书和我爱读书的相似度分值：1.0
我爱读书和他是黑客的相似度分值：0.0
他是黑客和他是黑客的相似度分值：1.0

方式二：简单共有词，通过计算两篇文档共有的词的总字符数除以最长文档字符数来评估他们的相似度

实现类：org.apdplat.word.analysis.SimpleTextSimilarity

用法如下：

String text1 = "我爱购物";
String text2 = "我爱读书";
String text3 = "他是黑客";
TextSimilarity textSimilarity = new SimpleTextSimilarity();
double score1pk1 = textSimilarity.similarScore(text1, text1);
double score1pk2 = textSimilarity.similarScore(text1, text2);
double score1pk3 = textSimilarity.similarScore(text1, text3);
double score2pk2 = textSimilarity.similarScore(text2, text2);
double score2pk3 = textSimilarity.similarScore(text2, text3);
double score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+" 和 "+text1+" 的相似度分值："+score1pk1);
System.out.println(text1+" 和 "+text2+" 的相似度分值："+score1pk2);
System.out.println(text1+" 和 "+text3+" 的相似度分值："+score1pk3);
System.out.println(text2+" 和 "+text2+" 的相似度分值："+score2pk2);
System.out.println(text2+" 和 "+text3+" 的相似度分值："+score2pk3);
System.out.println(text3+" 和 "+text3+" 的相似度分值："+score3pk3);

运行结果如下：

我爱购物和我爱购物的相似度分值：1.0
我爱购物和我爱读书的相似度分值：0.5
我爱购物和他是黑客的相似度分值：0.0
我爱读书和我爱读书的相似度分值：1.0
我爱读书和他是黑客的相似度分值：0.0
他是黑客和他是黑客的相似度分值：1.0

方式三：编辑距离，通过计算两个字串之间由一个转成另一个所需的最少编辑操作次数来评估他们的相似度

实现类：org.apdplat.word.analysis.EditDistanceTextSimilarity

用法如下：

String text1 = "我爱购物";
String text2 = "我爱读书";
String text3 = "他是黑客";
Similarity textSimilarity = new EditDistanceTextSimilarity();
double score1pk1 = textSimilarity.similarScore(text1, text1);
double score1pk2 = textSimilarity.similarScore(text1, text2);
double score1pk3 = textSimilarity.similarScore(text1, text3);
double score2pk2 = textSimilarity.similarScore(text2, text2);
double score2pk3 = textSimilarity.similarScore(text2, text3);
double score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+" 和 "+text1+" 的相似度分值："+score1pk1);
System.out.println(text1+" 和 "+text2+" 的相似度分值："+score1pk2);
System.out.println(text1+" 和 "+text3+" 的相似度分值："+score1pk3);
System.out.println(text2+" 和 "+text2+" 的相似度分值："+score2pk2);
System.out.println(text2+" 和 "+text3+" 的相似度分值："+score2pk3);
System.out.println(text3+" 和 "+text3+" 的相似度分值："+score3pk3);

运行结果如下：

我爱购物和我爱购物的相似度分值：1.0
我爱购物和我爱读书的相似度分值：0.5
我爱购物和他是黑客的相似度分值：0.0
我爱读书和我爱读书的相似度分值：1.0
我爱读书和他是黑客的相似度分值：0.0
他是黑客和他是黑客的相似度分值：1.0

方式四：SimHash + 汉明距离，先使用SimHash把不同长度的文本映射为等长文本，然后再计算等长文本的汉明距离

实现类：org.apdplat.word.analysis.SimHashPlusHammingDistanceTextSimilarity

用法如下：

String text1 = "我爱购物";
String text2 = "我爱读书";
String text3 = "他是黑客";
TextSimilarity textSimilarity = new SimHashPlusHammingDistanceTextSimilarity();
double score1pk1 = textSimilarity.similarScore(text1, text1);
double score1pk2 = textSimilarity.similarScore(text1, text2);
double score1pk3 = textSimilarity.similarScore(text1, text3);
double score2pk2 = textSimilarity.similarScore(text2, text2);
double score2pk3 = textSimilarity.similarScore(text2, text3);
double score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+" 和 "+text1+" 的相似度分值："+score1pk1);
System.out.println(text1+" 和 "+text2+" 的相似度分值："+score1pk2);
System.out.println(text1+" 和 "+text3+" 的相似度分值："+score1pk3);
System.out.println(text2+" 和 "+text2+" 的相似度分值："+score2pk2);
System.out.println(text2+" 和 "+text3+" 的相似度分值："+score2pk3);
System.out.println(text3+" 和 "+text3+" 的相似度分值："+score3pk3);

运行结果如下：

我爱购物和我爱购物的相似度分值：1.0
我爱购物和我爱读书的相似度分值：0.95
我爱购物和他是黑客的相似度分值：0.83
我爱读书和我爱读书的相似度分值：1.0
我爱读书和他是黑客的相似度分值：0.86
他是黑客和他是黑客的相似度分值：1.0

方式五：Jaccard相似性系数，通过计算两个集合交集的大小除以并集的大小来评估他们的相似度

实现类：org.apdplat.word.analysis.JaccardTextSimilarity

用法如下：

String text1 = "我爱购物";
String text2 = "我爱读书";
String text3 = "他是黑客";
TextSimilarity textSimilarity = new JaccardTextSimilarity();
double score1pk1 = textSimilarity.similarScore(text1, text1);
double score1pk2 = textSimilarity.similarScore(text1, text2);
double score1pk3 = textSimilarity.similarScore(text1, text3);
double score2pk2 = textSimilarity.similarScore(text2, text2);
double score2pk3 = textSimilarity.similarScore(text2, text3);
double score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+" 和 "+text1+" 的相似度分值："+score1pk1);
System.out.println(text1+" 和 "+text2+" 的相似度分值："+score1pk2);
System.out.println(text1+" 和 "+text3+" 的相似度分值："+score1pk3);
System.out.println(text2+" 和 "+text2+" 的相似度分值："+score2pk2);
System.out.println(text2+" 和 "+text3+" 的相似度分值："+score2pk3);
System.out.println(text3+" 和 "+text3+" 的相似度分值："+score3pk3);

运行结果如下：

我爱购物和我爱购物的相似度分值：1.0
我爱购物和我爱读书的相似度分值：0.5
我爱购物和他是黑客的相似度分值：0.0
我爱读书和我爱读书的相似度分值：1.0
我爱读书和他是黑客的相似度分值：0.0
他是黑客和他是黑客的相似度分值：1.0

方式六：欧几里得距离（Euclidean Distance），通过计算两点间的距离来评估他们的相似度

实现类：org.apdplat.word.analysis.EuclideanDistanceTextSimilarity

用法如下：

String text1 = "我爱购物";
String text2 = "我爱读书";
String text3 = "他是黑客";
TextSimilarity textSimilarity = new EuclideanDistanceTextSimilarity();
double score1pk1 = textSimilarity.similarScore(text1, text1);
double score1pk2 = textSimilarity.similarScore(text1, text2);
double score1pk3 = textSimilarity.similarScore(text1, text3);
double score2pk2 = textSimilarity.similarScore(text2, text2);
double score2pk3 = textSimilarity.similarScore(text2, text3);
double score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+" 和 "+text1+" 的相似度分值："+score1pk1);
System.out.println(text1+" 和 "+text2+" 的相似度分值："+score1pk2);
System.out.println(text1+" 和 "+text3+" 的相似度分值："+score1pk3);
System.out.println(text2+" 和 "+text2+" 的相似度分值："+score2pk2);
System.out.println(text2+" 和 "+text3+" 的相似度分值："+score2pk3);
System.out.println(text3+" 和 "+text3+" 的相似度分值："+score3pk3);

运行结果如下：

我爱购物和我爱购物的相似度分值：1.0
我爱购物和我爱读书的相似度分值：0.41
我爱购物和他是黑客的相似度分值：0.29
我爱读书和我爱读书的相似度分值：1.0
我爱读书和他是黑客的相似度分值：0.29
他是黑客和他是黑客的相似度分值：1.0

方式七：曼哈顿距离（Manhattan Distance），通过计算两个点在标准坐标系上的绝对轴距总和来评估他们的相似度

实现类：org.apdplat.word.analysis.ManhattanDistanceTextSimilarity

用法如下：

String text1 = "我爱购物";
String text2 = "我爱读书";
String text3 = "他是黑客";
TextSimilarity textSimilarity = new ManhattanDistanceTextSimilarity();
double score1pk1 = textSimilarity.similarScore(text1, text1);
double score1pk2 = textSimilarity.similarScore(text1, text2);
double score1pk3 = textSimilarity.similarScore(text1, text3);
double score2pk2 = textSimilarity.similarScore(text2, text2);
double score2pk3 = textSimilarity.similarScore(text2, text3);
double score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+" 和 "+text1+" 的相似度分值："+score1pk1);
System.out.println(text1+" 和 "+text2+" 的相似度分值："+score1pk2);
System.out.println(text1+" 和 "+text3+" 的相似度分值："+score1pk3);
System.out.println(text2+" 和 "+text2+" 的相似度分值："+score2pk2);
System.out.println(text2+" 和 "+text3+" 的相似度分值："+score2pk3);
System.out.println(text3+" 和 "+text3+" 的相似度分值："+score3pk3);

运行结果如下：

我爱购物和我爱购物的相似度分值：1.0
我爱购物和我爱读书的相似度分值：0.33
我爱购物和他是黑客的相似度分值：0.14
我爱读书和我爱读书的相似度分值：1.0
我爱读书和他是黑客的相似度分值：0.14
他是黑客和他是黑客的相似度分值：1.0

渔夫星辰

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
利用分词,计算相似度

1.引入分词jar<dependency> <groupId>org.apdplat</groupId> <artifactId>word</artifactId> <version>1.3</version></dependency>2. 使用方法,计算重复率(第一次加载较慢,为了使用方便,可在系统启动时,加载)word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算
复制链接

扫一扫

专栏目录