【1】与问题角度不同。把物体看成一个整体比如:距离/余弦等等。现在把物体拆分,就可以用集合去考虑相似度。比如jaccard相似度。
【2】定义
集合s和集合t的jaccard相似度为:|S∩T|/|S∪T|
【3】现在我们把目标放在文档上面,如何将文档拆分呢?引入shingle
k-shingle:文档看做字符串,k的意思是任意个长度为k的字符串。eg.字符串abcdabd的2-shingle组成的集合为{ab,bc,cd,da,bd}
注意任意两个字。
【4】好,现在因为对于一个文本来说,k-shingle集合真的非常大,所以引入minhashing技术。
理解:就是一个随机采样