一、MinHash
例如,小写字母代表词,大写字母代表文档:
S1={a, d}, S2={c}, S3={b, d, e}, S4={a, c, d}
然后,把原来的词典{a, b, c, d, e} 顺序随机重排,例如得到{b, e, a, d, c},
定义一个函数h:计算集合S最小的minhash值,就是在这种顺序下最先出现1的元素。那么,
h(S1) = a, h(S2)=c, h(S3)=b, h(S4)=a
类似地,如果进行n次重排的话,就会有n个minhash函数,{h1(S), h2(S)…, hn(S)}, 那原来每个高维集合,就会被降到n维空间,