我们知道当文本数量达到一定的量,用字符串比较是很慢很难比较出来的,
而 simhash算法解决的就是大数据(网页,文本去重的),速度也是很快。
废话不说,直接进入主题,说下基本的原理,假如我们需要对两个字符串比较。
第一步,对字符串进行分词,分词现在有很多好用的工具,字符串分词,字符串词语切割_userdefinelibrary_程序员阿军的博客-CSDN博客。可以参考这篇文章,是对分词的介绍。也可以对分词的繁体转简体,词性设置等。
第二步,需要对分好词的进行字符串转64位hash值,然后进行加权和降权, 加权和降权我们需要初始化一个数组,用字符串的64位hash值和初始化的数组进行与运算,如果为0的情况,就降权(--),否则,就加权(++),得到一个数组
第三步,最后对数组进行判断, 定义初始化结果集为0的数字,大于0每次和初始化一个数组的进行索引按位或运算(|),最后得到该字符串的simhash值。
第四步,也就是另一个字符串同样的方法算出simhash值,然后两个字符串进行海明距离比较,根据自己的需求为多少就设定多少海明距离。
直接上代码吧:
初始化数组
//初始化数组
private static final long[] BITS = new long[BYTE_LEN];
static {
BITS[0] = 1;
for (int i = 1; i < BITS.length; i++) {
BITS[i] = BITS[i - 1] * 2;
}
}
分词
public static List<String> getWords(String doc) {
doc = JianFan.f2j(doc); // 繁体转简体
Result result = ToAnalysis.parse(doc);
List<Term> terms = result.getTerms();
List<String> words = new ArrayList<String>(terms.size());
for (int i = 0; i < terms.size(); i++) {
String word = terms.get(i).getName();
String natureStr = terms.get(i).getNatureStr();
if (expectedNature.contains(natureStr)) {
words.add(word);
}
}
return words;
}
定义获得字符串64位hash值
public static long hash(String word) {
return MurmurHash.hash64(word);
}
降加权,计算simhash值
public static long fingerprint(String content) {
int[] values = new int[BYTE_LEN];
List<String> words = AnsjHandler.getWords(content);
for (String word : words) {
long hashCode = hash(word);
for (int i = 0; i < BYTE_LEN; i++) {
if ((hashCode & BITS[i]) != 0) {
values[BYTE_LEN - 1 - i]++;
} else {
values[BYTE_LEN - 1 - i]--;
}
}
}
long result = 0;
for (int i = 0; i < BYTE_LEN; i++) {
if (values[i] > 0) {
result = result | BITS[BYTE_LEN - 1 - i];
}
}
return result;
}
计算海明距离
SimHashService simHashService = new SimHashService();
if (simHashService.hmDistance(a.getSimhash64(), b.getSimhash64()<自己设定的数)
public int hmDistance(long a, long b)
{
int d = 0;
a ^= b;
for (int i = 0; i < 64; i++) {
if ((a & BITS[i]) != 0L) {
d++;
}
}
return d;
}