自己实践simhash算法的几点经验:
1 数据已处理,正则表达式去除各种转义符号
2 将文本中的数字和字母等去除
3 分词后去除停顿词
步骤,
1 文本预处理
代码步骤
1 jieba分词 获取features
2 hash函数计算hash值
3 计算海明距离AxoB(两个二进制串中不同位的个数)
将第一篇features建立index
自己实践simhash算法的几点经验:
1 数据已处理,正则表达式去除各种转义符号
2 将文本中的数字和字母等去除
3 分词后去除停顿词
步骤,
1 文本预处理
代码步骤
1 jieba分词 获取features
2 hash函数计算hash值
3 计算海明距离AxoB(两个二进制串中不同位的个数)
将第一篇features建立index