内容重复大致可以分为下面4种:
1.如果两篇文档内容和布局上毫无差别,则这种重复可以叫做完全重复页面
2.如果两篇文档内容相同,但是格式不同,则叫做内容重复页面
3.两篇文档有部分重要的内容相同,并且布局格式相同,则称为布局重复页面
4.如果两篇文档有部分重要的内容相同,但是布局格式不同,则称为部分重复页面
好处:
1.节省存储空间
2.避开重复网页进行索引
3.网页重复,收录时应给与高优先级
4.增加用户体验
10.1 通用去重算法框架
10.2 Shingling算法
10.3 I-Match算法
10.4 SimHash算法
10.4.1 文档指纹计算
10.4.2 相似文档查找
10.5 SpotSig算法
10.5.1 特征抽取
10.5.2 相似文档查找