文本查重(未完)

因为申请的学校的项目,准备写个文本查重。

浏览了些网上的资料,结合下自己的实际需求,觉得simhash算法比较合适一些。

先附上一些参考资料吧

需求总结不错

https://blog.csdn.net/weixin_43098787/article/details/82836140

simhash算法入门了解

https://blog.csdn.net/chinafire525/article/details/78645956

simhash更全面的介绍(引用文献不错)

https://blog.csdn.net/sunny_ss12/article/details/46958155

下面就是一些实现了:

https://blog.csdn.net/weixin_43098787/article/details/82838348

py3:https://blog.csdn.net/gzt940726/article/details/80460419

https://www.cnblogs.com/Liqiongyu/p/6213323.html

高效计算二进制序列中1的个数:

https://yanyiwu.com/work/2014/01/30/simhash-shi-xian-xiang-jie.html

simhash海量文本去重工程化

https://yuerblog.cc/2018/05/30/simhash-text-unique-arch/

汉明距离

http://www.lanceyan.com/tag/simhash

关键词提取

https://blog.csdn.net/gzt940726/article/details/80256011

 

  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值