- 博客(1)
- 收藏
- 关注
原创 对大量转载贴识别算法的研究
要识别论坛中被大量转载的同一篇文章,初看起来不是一个很难的技术问题,只要生成所有文章的信息指纹,再将相同指纹分组就可以了。至于产生信息指纹的方式,最简单的是用MD5或者SHA等单向Hash函数,如果为了减少存储以及提高性能,同时可以容许一定误差,可以再利用BloomFilter。 但是结合实际情况看一下,就能发现产生这种类别文章的指纹不能简单的用MD5产生,因为当一篇文章被大量复
2009-02-12 11:06:00 3796
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人