Jackcard相似度和余弦相似度(向量空间模型)的java实现

最新推荐文章于 2024-05-23 20:00:00 发布

donlagu

最新推荐文章于 2024-05-23 20:00:00 发布

阅读量623

点赞数

文章标签：数学

一、集合的Jackcard相似度

1.1Jackcard相似度

Jaccard相似指数用来度量两个集合之间的相似性，它被定义为两个集合交集的元素个数除以并集的元素个数。

数学公式描述:

J (A, B) = | A \cap B | | A \cup B |

这个看似简单的算法有很大的用处，比如：

抄袭文档
高明的抄袭者为了掩盖自己抄袭的事实，会选择性的抄袭文档中的一些段落，或者对词语或原始文本中的句序进行改变。jackcard相似度计算适合从字面上进行计算，如果是更高级的抄袭改变了语义jackcard相似度计算就无能为力了
镜像页面
多个主机上建立镜像以共享加载内容，同一份内容有多个副本，这种情况实现jackcard相似度计算十分有效。
同源新闻稿
一个记者撰写了一份新闻稿件投稿多家媒体，稿件经过少量修改后发布，使用这些同源新闻稿可以用jackcard相似度算法来检测出来

1.2 Java实现

import java.util.HashSet;
import java.util.Map;
import java.util.Set;

/**
 * Created by bee on 17/4/12.
 */
public class JackcardSim {

    public static double calJackcardSim(Set<String> s1, Set<String> s2) {

        Set<String> all = new HashSet<>();
        all.addAll(s1);
        all.addAll(s2);
        System.out.println(all);
        Set<String> both = new HashSet<>();
        both.addAll(s1);
        both.retainAll(s2);
        System.out.println(both);

        return (double) both.size() / all.size();

    }

    public static void main(String[] args) {

        Set<String> s1 = new HashSet<String>();
        s1.add("互联网");
        s1.add("金融");
        s1.add("房产");
        s1.add("融资");
        s1.add("科技");

        Set<String> s2 = new HashSet<String>();
        s2.add("互联网");
        s2.add("开源");
        s2.add("人工智能");
        s2.add("软件");
        s2.add("科技");

        System.out.println(calJackcardSim(s1, s2));

    }
}

 
 1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
 
 1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45

运行结果

[科技, 房产, 软件, 融资, 人工智能, 互联网, 开源, 金融]
[科技, 互联网]
0.25
 
 1
2
3
 
 1
2
3

二、向量空间模型

2.1简介

向量空间模型是一个把文本文件表示为标识符（比如索引）向量的代数模型。它应用于信息过滤、信息检索、索引以及相关排序。

文档和查询都用向量来表示。

d j = (w 1, j, w 2, j, . . ., w t, j) q = (w 1, q, w 2, q, . . ., w t, q)

cos θ = d 2 \cdot q ∥ d 2 ∥ ∥ q ∥ = \sum i = 1 N w i , j w i , q \sum i = 1 N w 2 i , j - - - - - \sqrt \sum i = 1 N w 2 i , q - - - - - - \sqrt

2.2、java实现

import java.util.HashMap;
import java.util.HashSet;
import java.util.Map;
import java.util.Set;

/**
 * Created by bee on 17/4/10.
 */
public class Vsm {

    public static double calCosSim(Map<String, Double> v1, Map<String, Double>
            v2) {

        double sclar = 0.0,norm1=0.0,norm2=0.0,similarity=0.0;

        Set<String> v1Keys = v1.keySet();
        Set<String> v2Keys = v2.keySet();

        Set<String> both= new HashSet<>();
        both.addAll(v1Keys);
        both.retainAll(v2Keys);
        System.out.println(both);

        for (String str1 : both) {
            sclar += v1.get(str1) * v2.get(str1);
        }

        for (String str1:v1.keySet()){
            norm1+=Math.pow(v1.get(str1),2);
        }
        for (String str2:v2.keySet()){
            norm2+=Math.pow(v2.get(str2),2);
        }

        similarity=sclar/Math.sqrt(norm1*norm2);
        System.out.println("sclar:"+sclar);
        System.out.println("norm1:"+norm1);
        System.out.println("norm2:"+norm2);
        System.out.println("similarity:"+similarity);
        return similarity;
    }

    public static void main(String[] args) {

        Map<String, Double> m1 = new HashMap<>();
        m1.put("Hello", 1.0);
        m1.put("css", 2.0);
        m1.put("Lucene", 3.0);

        Map<String, Double> m2 = new HashMap<>();
        m2.put("Hello", 1.0);
        m2.put("Word", 2.0);
        m2.put("Hadoop", 3.0);
        m2.put("java", 4.0);
        m2.put("html", 1.0);
        m2.put("css", 2.0);
        calCosSim(m1, m2);

    }
}

 
 1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
 
 1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61

运行结果:

[css, Hello]
sclar:5.0
norm1:14.0
norm2:35.0
similarity:0.22587697572631282
 
 1
2
3
4
5
 
 1
2
3
4
5

三、参考资料

https://zh.wikipedia.org/wiki/%E5%90%91%E9%87%8F%E7%A9%BA%E9%96%93%E6%A8%A1%E5%9E%8B
http://baike.baidu.com/link?url=enqtEW1bEXe0iZvil1MBk8m2upnfmN118p4cgjNpYdoJYe2l-FC5_s_yYQAq_3GUtiQW0jgwfMMBBxM0U16JiRKeFToPQ0fj058H7P8mHlZ5RV7rERN9Je7jdrYdA3gI7SRMUNTD

donlagu

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫