一、集合的Jackcard相似度
1.1Jackcard相似度
Jaccard相似指数用来度量两个集合之间的相似性,它被定义为两个集合交集的元素个数除以并集的元素个数。
数学公式描述:
J(A,B)=|A∩B||A∪B|
这个看似简单的算法有很大的用处,比如:
- 抄袭文档
高明的抄袭者为了掩盖自己抄袭的事实,会选择性的抄袭文档中的一些段落,或者对词语或原始文本中的句序进行改变。jackcard相似度计算适合从字面上进行计算,如果是更高级的抄袭改变了语义jackcard相似度计算就无能为力了 - 镜像页面
多个主机上建立镜像以共享加载内容,同一份内容有多个副本,这种情况实现jackcard相似度计算十分有效。 - 同源新闻稿
一个记者撰写了一份新闻稿件投稿多家媒体,稿件经过少量修改后发布,使用这些同源新闻稿可以用jackcard相似度算法来检测出来
1.2 Java实现
import java.util.HashSet
import java.util.Map
import java.util.Set
public class JackcardSim {
public static double calJackcardSim(Set<String> s1, Set<String> s2) {
Set<String> all = new HashSet<>()
all.addAll(s1)
all.addAll(s2)
System.out.println(all)
Set<String> both = new HashSet<>()
both.addAll(s1)
both.retainAll(s2)
System.out.println(both)
return (double) both.size() / all.size()
}
public static void main(String[] args) {
Set<String> s1 = new HashSet<String>()
s1.add("互联网")
s1.add("金融")
s1.add("房产")
s1.add("融资")
s1.add("科技")
Set<String> s2 = new HashSet<String>()
s2.add("互联网")
s2.add("开源")
s2.add("人工智能")
s2.add("软件")
s2.add("科技")
System.out.println(calJackcardSim(s1, s2))
}
}
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43
- 44
- 45
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43
- 44
- 45
运行结果
[科技, 房产, 软件, 融资, 人工智能, 互联网, 开源, 金融]
[科技, 互联网]
0.25
二、向量空间模型
2.1简介
向量空间模型是一个把文本文件表示为标识符(比如索引)向量的代数模型。它应用于信息过滤、信息检索、索引以及相关排序。
文档和查询都用向量来表示。
dj=(w1,j,w2,j,...,wt,j)q=(w1,q,w2,q,...,wt,q)
cosθ=d2⋅q∥d2∥∥q∥=∑i=1Nwi,jwi,q∑i=1Nw2i,j−−−−−√∑i=1Nw2i,q−−−−−−√
2.2、java实现
import java.util.HashMap
import java.util.HashSet
import java.util.Map
import java.util.Set
public class Vsm {
public static double calCosSim(Map<String, Double> v1, Map<String, Double>
v2) {
double sclar = 0.0,norm1=0.0,norm2=0.0,similarity=0.0
Set<String> v1Keys = v1.keySet()
Set<String> v2Keys = v2.keySet()
Set<String> both= new HashSet<>()
both.addAll(v1Keys)
both.retainAll(v2Keys)
System.out.println(both)
for (String str1 : both) {
sclar += v1.get(str1) * v2.get(str1)
}
for (String str1:v1.keySet()){
norm1+=Math.pow(v1.get(str1),2)
}
for (String str2:v2.keySet()){
norm2+=Math.pow(v2.get(str2),2)
}
similarity=sclar/Math.sqrt(norm1*norm2)
System.out.println("sclar:"+sclar)
System.out.println("norm1:"+norm1)
System.out.println("norm2:"+norm2)
System.out.println("similarity:"+similarity)
return similarity
}
public static void main(String[] args) {
Map<String, Double> m1 = new HashMap<>()
m1.put("Hello", 1.0)
m1.put("css", 2.0)
m1.put("Lucene", 3.0)
Map<String, Double> m2 = new HashMap<>()
m2.put("Hello", 1.0)
m2.put("Word", 2.0)
m2.put("Hadoop", 3.0)
m2.put("java", 4.0)
m2.put("html", 1.0)
m2.put("css", 2.0)
calCosSim(m1, m2)
}
}
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43
- 44
- 45
- 46
- 47
- 48
- 49
- 50
- 51
- 52
- 53
- 54
- 55
- 56
- 57
- 58
- 59
- 60
- 61
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43
- 44
- 45
- 46
- 47
- 48
- 49
- 50
- 51
- 52
- 53
- 54
- 55
- 56
- 57
- 58
- 59
- 60
- 61
运行结果:
[css, Hello]
sclar:5.0
norm1:14.0
norm2:35.0
similarity:0.22587697572631282
三、参考资料
https://zh.wikipedia.org/wiki/%E5%90%91%E9%87%8F%E7%A9%BA%E9%96%93%E6%A8%A1%E5%9E%8B
http://baike.baidu.com/link?url=enqtEW1bEXe0iZvil1MBk8m2upnfmN118p4cgjNpYdoJYe2l-FC5_s_yYQAq_3GUtiQW0jgwfMMBBxM0U16JiRKeFToPQ0fj058H7P8mHlZ5RV7rERN9Je7jdrYdA3gI7SRMUNTD