神马是网页消重??
1
在爬虫的过程中,我们常常会遇到主题内容相同的网页
。
2
由于标题不一样,内容有细微的偏差,也许我们的爬虫会误认为两个网页是不同的。
俺就是网页消重技术!!
网页消重技术是指对内容重复的网页进行识别,处理和合并,以节省网页数据库的存储空间和在网页,数据库上进行操作的时间的过程
为神马要进行网页消重
l
它们不仅会影响用户搜索结果
,
而且会严重影响爬虫系统的执行效率
。
l
不仅占用网络带宽,又浪费存储资源
l
网页净化与消重是大规模搜索引擎系统预处理环节的重要组成部分
重复网页的两种类型
•
一种是通过各网站间的直接转载而形成的内容基本一致的网页
----
可以在服务器端,在搜索引擎采集网页的过程中进行消重处理
•
一种是对网页进行了适度的加工后而形成的重复网页
----
根据客户的不同要求提供是否在客户端上对网页进行消重服务
几种消重算法
几种消重算法
•
排除相同的
URL
方法
•
基于聚类的方法
•
基于特征码的方法
•
基于签名的方法
排除相同URL的网页消重方法
•
它分析来自不同搜索引擎的网页
URL
•
相同的
URL
认为是相同的网页
•
或是不同的
URL
•
但是
IP
相同也认为是相同网页
基于特征码的方法
基于签名的方法
特点:
简单以实现,可以消除一部分相同网页
缺点:
没有利用网页的文本内容信息
不能对转载造成的内容重复的网页消重
基于聚类的网页消重方法
•
基于网页文本内容的算法
A
用基于文本中汉字的字频来来构造网页文本的空间向量,由于每个汉字对内容表达的重要性不一样,因此对不同的汉字赋予不同的权重
B
汉字在网页中的字频乘以权重表示该汉字分量的大小
基于聚类的网页消重方法
C
所有汉字的分量构成了网页文本的空间向量
D
通过计算两个网页文本空间向量的夹角来评估两个网页的相似度
E
当两个网页的夹角小于某一个值时,就认为他们是同一类别
几种常用的聚类方法
•
单遍聚类法
•
逆中心聚类法
•
密度测试法
•
图聚类法
百度大叔
谷歌大婶
聚类的网页消重方法的特点
•
简单易于实现
不足之处是聚类复杂度为
O
(
n^2
)
对于大规模网页的聚类,计算量过大
只利用了字频,没有利用文本的结构信息
•
实时性很差,每加入新的网页都要重新聚类
基于特征码的方法
u
利用汉字中的标点符号信息,以句号前后 的各五个汉字信息作为特征码来唯一标示网页
u
这种方法利用汉语言表达的特点来取得特征码,将特征码的精确匹配与先进的搜索技术联系起来,消重率较高
基于签名的方法
ü
这种算法把一篇网页按一定的原则分成
N
段(如每
n
行作为一段),然后对每一段进行签名(即计算指纹),于是每一篇文档就可以用
N
个签名后的指纹来表示。
ü
对于两篇文档,当它们的
N
个签名中有
M
个相同时(
m
是系统定义的阈值),则认为它们是互为转载的网页。
•
基于
Map/Reduce
的网页消重并行算法
•
基于元搜索的网页消重算法
•
XX
算法