利用simhash算法原理和HanLP分词原理计算文本相似度工具类
前言该方法是采用HanLP分词原理参考大佬们的代码与原理:(部分)simhash算法及原理简介海量文本用 Simhash, 2小时变4秒! | 文本分析:大规模文本处理(2)一、计算文本相似度工具类SimHashUtilspackage com.siboo.util;import java.io.BufferedReader;import java.io.IOException;import java.io.Reader;import java.math.BigInteger;imp
原创
2020-11-10 17:56:50 ·
1172 阅读 ·
0 评论