利用word分词来计算文本相似度

word分词提供了多种文本相似度计算方式:

方式一:余弦相似度,通过计算两个向量的夹角余弦值来评估他们的相似度

实现类:org.apdplat.word.analysis.CosineTextSimilarity

用法如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
String text1 =  "我爱购物" ;
String text2 =  "我爱读书" ;
String text3 =  "他是黑客" ;
TextSimilarity textSimilarity =  new  CosineTextSimilarity();
double  score1pk1 = textSimilarity.similarScore(text1, text1);
double  score1pk2 = textSimilarity.similarScore(text1, text2);
double  score1pk3 = textSimilarity.similarScore(text1, text3);
double  score2pk2 = textSimilarity.similarScore(text2, text2);
double  score2pk3 = textSimilarity.similarScore(text2, text3);
double  score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+ " 和 " +text1+ " 的相似度分值:" +score1pk1);
System.out.println(text1+ " 和 " +text2+ " 的相似度分值:" +score1pk2);
System.out.println(text1+ " 和 " +text3+ " 的相似度分值:" +score1pk3);
System.out.println(text2+ " 和 " +text2+ " 的相似度分值:" +score2pk2);
System.out.println(text2+ " 和 " +text3+ " 的相似度分值:" +score2pk3);
System.out.println(text3+ " 和 " +text3+ " 的相似度分值:" +score3pk3);

运行结果如下:

?
1
2
3
4
5
6
我爱购物 和 我爱购物 的相似度分值: 1.0
我爱购物 和 我爱读书 的相似度分值: 0.67
我爱购物 和 他是黑客 的相似度分值: 0.0
我爱读书 和 我爱读书 的相似度分值: 1.0
我爱读书 和 他是黑客 的相似度分值: 0.0
他是黑客 和 他是黑客 的相似度分值: 1.0


方式二:简单共有词,通过计算两篇文档共有的词的总字符数除以最长文档字符数来评估他们的相似度

实现类:org.apdplat.word.analysis.SimpleTextSimilarity

用法如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
String text1 =  "我爱购物" ;
String text2 =  "我爱读书" ;
String text3 =  "他是黑客" ;
TextSimilarity textSimilarity =  new  SimpleTextSimilarity();
double  score1pk1 = textSimilarity.similarScore(text1, text1);
double  score1pk2 = textSimilarity.similarScore(text1, text2);
double  score1pk3 = textSimilarity.similarScore(text1, text3);
double  score2pk2 = textSimilarity.similarScore(text2, text2);
double  score2pk3 = textSimilarity.similarScore(text2, text3);
double  score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+ " 和 " +text1+ " 的相似度分值:" +score1pk1);
System.out.println(text1+ " 和 " +text2+ " 的相似度分值:" +score1pk2);
System.out.println(text1+ " 和 " +text3+ " 的相似度分值:" +score1pk3);
System.out.println(text2+ " 和 " +text2+ " 的相似度分值:" +score2pk2);
System.out.println(text2+ " 和 " +text3+ " 的相似度分值:" +score2pk3);
System.out.println(text3+ " 和 " +text3+ " 的相似度分值:" +score3pk3);

运行结果如下:

?
1
2
3
4
5
6
我爱购物 和 我爱购物 的相似度分值: 1.0
我爱购物 和 我爱读书 的相似度分值: 0.5
我爱购物 和 他是黑客 的相似度分值: 0.0
我爱读书 和 我爱读书 的相似度分值: 1.0
我爱读书 和 他是黑客 的相似度分值: 0.0
他是黑客 和 他是黑客 的相似度分值: 1.0


方式三:编辑距离,通过计算两个字串之间由一个转成另一个所需的最少编辑操作次数来评估他们的相似度

实现类:org.apdplat.word.analysis.EditDistanceTextSimilarity

用法如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
String text1 =  "我爱购物" ;
String text2 =  "我爱读书" ;
String text3 =  "他是黑客" ;
Similarity textSimilarity =  new  EditDistanceTextSimilarity();
double  score1pk1 = textSimilarity.similarScore(text1, text1);
double  score1pk2 = textSimilarity.similarScore(text1, text2);
double  score1pk3 = textSimilarity.similarScore(text1, text3);
double  score2pk2 = textSimilarity.similarScore(text2, text2);
double  score2pk3 = textSimilarity.similarScore(text2, text3);
double  score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+ " 和 " +text1+ " 的相似度分值:" +score1pk1);
System.out.println(text1+ " 和 " +text2+ " 的相似度分值:" +score1pk2);
System.out.println(text1+ " 和 " +text3+ " 的相似度分值:" +score1pk3);
System.out.println(text2+ " 和 " +text2+ " 的相似度分值:" +score2pk2);
System.out.println(text2+ " 和 " +text3+ " 的相似度分值:" +score2pk3);
System.out.println(text3+ " 和 " +text3+ " 的相似度分值:" +score3pk3);

运行结果如下:

?
1
2
3
4
5
6
我爱购物 和 我爱购物 的相似度分值: 1.0
我爱购物 和 我爱读书 的相似度分值: 0.5
我爱购物 和 他是黑客 的相似度分值: 0.0
我爱读书 和 我爱读书 的相似度分值: 1.0
我爱读书 和 他是黑客 的相似度分值: 0.0
他是黑客 和 他是黑客 的相似度分值: 1.0


方式四:SimHash + 汉明距离,先使用SimHash把不同长度的文本映射为等长文本,然后再计算等长文本的汉明距离

实现类:org.apdplat.word.analysis.SimHashPlusHammingDistanceTextSimilarity

用法如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
String text1 =  "我爱购物" ;
String text2 =  "我爱读书" ;
String text3 =  "他是黑客" ;
TextSimilarity textSimilarity =  new  SimHashPlusHammingDistanceTextSimilarity();
double  score1pk1 = textSimilarity.similarScore(text1, text1);
double  score1pk2 = textSimilarity.similarScore(text1, text2);
double  score1pk3 = textSimilarity.similarScore(text1, text3);
double  score2pk2 = textSimilarity.similarScore(text2, text2);
double  score2pk3 = textSimilarity.similarScore(text2, text3);
double  score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+ " 和 " +text1+ " 的相似度分值:" +score1pk1);
System.out.println(text1+ " 和 " +text2+ " 的相似度分值:" +score1pk2);
System.out.println(text1+ " 和 " +text3+ " 的相似度分值:" +score1pk3);
System.out.println(text2+ " 和 " +text2+ " 的相似度分值:" +score2pk2);
System.out.println(text2+ " 和 " +text3+ " 的相似度分值:" +score2pk3);
System.out.println(text3+ " 和 " +text3+ " 的相似度分值:" +score3pk3);

运行结果如下:

?
1
2
3
4
5
6
我爱购物 和 我爱购物 的相似度分值: 1.0
我爱购物 和 我爱读书 的相似度分值: 0.95
我爱购物 和 他是黑客 的相似度分值: 0.83
我爱读书 和 我爱读书 的相似度分值: 1.0
我爱读书 和 他是黑客 的相似度分值: 0.86
他是黑客 和 他是黑客 的相似度分值: 1.0


方式五:Jaccard相似性系数,通过计算两个集合交集的大小除以并集的大小来评估他们的相似度

实现类:org.apdplat.word.analysis.JaccardTextSimilarity

用法如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
String text1 =  "我爱购物" ;
String text2 =  "我爱读书" ;
String text3 =  "他是黑客" ;
TextSimilarity textSimilarity =  new  JaccardTextSimilarity();
double  score1pk1 = textSimilarity.similarScore(text1, text1);
double  score1pk2 = textSimilarity.similarScore(text1, text2);
double  score1pk3 = textSimilarity.similarScore(text1, text3);
double  score2pk2 = textSimilarity.similarScore(text2, text2);
double  score2pk3 = textSimilarity.similarScore(text2, text3);
double  score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+ " 和 " +text1+ " 的相似度分值:" +score1pk1);
System.out.println(text1+ " 和 " +text2+ " 的相似度分值:" +score1pk2);
System.out.println(text1+ " 和 " +text3+ " 的相似度分值:" +score1pk3);
System.out.println(text2+ " 和 " +text2+ " 的相似度分值:" +score2pk2);
System.out.println(text2+ " 和 " +text3+ " 的相似度分值:" +score2pk3);
System.out.println(text3+ " 和 " +text3+ " 的相似度分值:" +score3pk3);

运行结果如下:

?
1
2
3
4
5
6
我爱购物 和 我爱购物 的相似度分值: 1.0
我爱购物 和 我爱读书 的相似度分值: 0.5
我爱购物 和 他是黑客 的相似度分值: 0.0
我爱读书 和 我爱读书 的相似度分值: 1.0
我爱读书 和 他是黑客 的相似度分值: 0.0
他是黑客 和 他是黑客 的相似度分值: 1.0


方式六:欧几里得距离(Euclidean Distance),通过计算两点间的距离来评估他们的相似度

实现类:org.apdplat.word.analysis.EuclideanDistanceTextSimilarity

用法如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
String text1 =  "我爱购物" ;
String text2 =  "我爱读书" ;
String text3 =  "他是黑客" ;
TextSimilarity textSimilarity =  new  EuclideanDistanceTextSimilarity();
double  score1pk1 = textSimilarity.similarScore(text1, text1);
double  score1pk2 = textSimilarity.similarScore(text1, text2);
double  score1pk3 = textSimilarity.similarScore(text1, text3);
double  score2pk2 = textSimilarity.similarScore(text2, text2);
double  score2pk3 = textSimilarity.similarScore(text2, text3);
double  score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+ " 和 " +text1+ " 的相似度分值:" +score1pk1);
System.out.println(text1+ " 和 " +text2+ " 的相似度分值:" +score1pk2);
System.out.println(text1+ " 和 " +text3+ " 的相似度分值:" +score1pk3);
System.out.println(text2+ " 和 " +text2+ " 的相似度分值:" +score2pk2);
System.out.println(text2+ " 和 " +text3+ " 的相似度分值:" +score2pk3);
System.out.println(text3+ " 和 " +text3+ " 的相似度分值:" +score3pk3);

运行结果如下:

?
1
2
3
4
5
6
我爱购物 和 我爱购物 的相似度分值: 1.0
我爱购物 和 我爱读书 的相似度分值: 0.41
我爱购物 和 他是黑客 的相似度分值: 0.29
我爱读书 和 我爱读书 的相似度分值: 1.0
我爱读书 和 他是黑客 的相似度分值: 0.29
他是黑客 和 他是黑客 的相似度分值: 1.0


方式七:曼哈顿距离(Manhattan Distance),通过计算两个点在标准坐标系上的绝对轴距总和来评估他们的相似度

实现类:org.apdplat.word.analysis.ManhattanDistanceTextSimilarity

用法如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
String text1 =  "我爱购物" ;
String text2 =  "我爱读书" ;
String text3 =  "他是黑客" ;
TextSimilarity textSimilarity =  new  ManhattanDistanceTextSimilarity();
double  score1pk1 = textSimilarity.similarScore(text1, text1);
double  score1pk2 = textSimilarity.similarScore(text1, text2);
double  score1pk3 = textSimilarity.similarScore(text1, text3);
double  score2pk2 = textSimilarity.similarScore(text2, text2);
double  score2pk3 = textSimilarity.similarScore(text2, text3);
double  score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+ " 和 " +text1+ " 的相似度分值:" +score1pk1);
System.out.println(text1+ " 和 " +text2+ " 的相似度分值:" +score1pk2);
System.out.println(text1+ " 和 " +text3+ " 的相似度分值:" +score1pk3);
System.out.println(text2+ " 和 " +text2+ " 的相似度分值:" +score2pk2);
System.out.println(text2+ " 和 " +text3+ " 的相似度分值:" +score2pk3);
System.out.println(text3+ " 和 " +text3+ " 的相似度分值:" +score3pk3);

运行结果如下:

?
1
2
3
4
5
6
我爱购物 和 我爱购物 的相似度分值: 1.0
我爱购物 和 我爱读书 的相似度分值: 0.33
我爱购物 和 他是黑客 的相似度分值: 0.14
我爱读书 和 我爱读书 的相似度分值: 1.0
我爱读书 和 他是黑客 的相似度分值: 0.14
他是黑客 和 他是黑客 的相似度分值: 1.0



转载:http://my.oschina.net/apdplat/blog/417047


转载于:https://my.oschina.net/stevie/blog/692095

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值