- 博客(1)
- 资源 (3)
- 收藏
- 关注
转载 网页文本的排重算法介绍
转自:http://blog.csdn.net/marising/article/details/5886431 1.信息指纹算法 判断重复网页的思想:为每个网页计算出一组信息指纹(Fingerprint),若两个网页有一定数量相同的信息指纹,则认为这两个网页的内容重叠性很高,也就是说两个网页是内容复制的。 判断内容复制的方法中最关键的两点: 1、计算信息指纹(Fi
2012-04-06 10:19:13 3668
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人