大文本去重计算海明距离 simhash算法

程序员阿军

已于 2023-05-18 09:51:43 修改

阅读量88

点赞数

分类专栏： simhash 文章标签： simhash 海明距离相似度

于 2018-10-11 15:21:10 首次发布

本文链接：https://blog.csdn.net/qq_27026603/article/details/83012248

版权

simhash 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

我们知道当文本数量达到一定的量，用字符串比较是很慢很难比较出来的，

而 simhash算法解决的就是大数据（网页，文本去重的），速度也是很快。

废话不说，直接进入主题，说下基本的原理，假如我们需要对两个字符串比较。

第一步，对字符串进行分词，分词现在有很多好用的工具，字符串分词，字符串词语切割_userdefinelibrary_程序员阿军的博客-CSDN博客。可以参考这篇文章，是对分词的介绍。也可以对分词的繁体转简体，词性设置等。

第二步，需要对分好词的进行字符串转64位hash值，然后进行加权和降权，加权和降权我们需要初始化一个数组，用字符串的64位hash值和初始化的数组进行与运算，如果为0的情况，就降权(--)，否则，就加权（++)，得到一个数组

第三步，最后对数组进行判断, 定义初始化结果集为0的数字，大于0每次和初始化一个数组的进行索引按位或运算（|）,最后得到该字符串的simhash值。

第四步，也就是另一个字符串同样的方法算出simhash值，然后两个字符串进行海明距离比较，根据自己的需求为多少就设定多少海明距离。

直接上代码吧：

初始化数组

   //初始化数组
    private static final long[] BITS     = new long[BYTE_LEN];

    static {
        BITS[0] = 1;
        for (int i = 1; i < BITS.length; i++) {
            BITS[i] = BITS[i - 1] * 2;
        }
    }

分词

    public static List<String> getWords(String doc) {
        doc = JianFan.f2j(doc); // 繁体转简体
        Result result = ToAnalysis.parse(doc);
        List<Term> terms = result.getTerms();
        List<String> words = new ArrayList<String>(terms.size());
        for (int i = 0; i < terms.size(); i++) {
            String word = terms.get(i).getName();
            String natureStr = terms.get(i).getNatureStr();
            if (expectedNature.contains(natureStr)) {
                words.add(word);
            }
        }
        return words;
    }

定义获得字符串64位hash值

    public static long hash(String word) {
        return MurmurHash.hash64(word);
    }

降加权，计算simhash值

    public static long fingerprint(String content) {
        int[] values = new int[BYTE_LEN];

        List<String> words = AnsjHandler.getWords(content);

        for (String word : words) {
            long hashCode = hash(word);
            for (int i = 0; i < BYTE_LEN; i++) {
                if ((hashCode & BITS[i]) != 0) {
                    values[BYTE_LEN - 1 - i]++;
                } else {
                    values[BYTE_LEN - 1 - i]--;
                }
            }
        }

        long result = 0;

        for (int i = 0; i < BYTE_LEN; i++) {
            if (values[i] > 0) {
                result = result | BITS[BYTE_LEN - 1 - i];
            }
        }

        return result;
    }

计算海明距离

 SimHashService simHashService = new SimHashService();
           if (simHashService.hmDistance(a.getSimhash64(), b.getSimhash64()<自己设定的数)


  public int hmDistance(long a, long b)
  {
    int d = 0;
    a ^= b;
    for (int i = 0; i < 64; i++) {
      if ((a & BITS[i]) != 0L) {
        d++;
      }
    }
    return d;
  }

程序员阿军

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
大文本去重计算海明距离 simhash算法

我们知道当文本数量达到一定的量，用字符串比较是很慢很难比较出来的，而simhash算法解决的就是大数据（网页，文本去重的），速度也是很快。废话不说，直接进入主题，说下基本的原理，假如我们需要对两个字符串比较。第一步，对字符串进行分词，分词现在有很多好用的工具，https://blog.csdn.net/qq_27026603/article/details/82116...
复制链接

扫一扫