python 网页消重

神马是网页消重??


1   在爬虫的过程中,我们常常会遇到主题内容相同的网页
2   由于标题不一样,内容有细微的偏差,也许我们的爬虫会误认为两个网页是不同的。

俺就是网页消重技术!!

网页消重技术是指对内容重复的网页进行识别,处理和合并,以节省网页数据库的存储空间和在网页,数据库上进行操作的时间的过程



为神马要进行网页消重


l 它们不仅会影响用户搜索结果 , 而且会严重影响爬虫系统的执行效率

l 不仅占用网络带宽,又浪费存储资源

l 网页净化与消重是大规模搜索引擎系统预处理环节的重要组成部分

重复网页的两种类型

一种是通过各网站间的直接转载而形成的内容基本一致的网页 ---- 可以在服务器端,在搜索引擎采集网页的过程中进行消重处理
一种是对网页进行了适度的加工后而形成的重复网页 ---- 根据客户的不同要求提供是否在客户端上对网页进行消重服务

几种消重算法
排除相同的 URL 方法
基于聚类的方法
基于特征码的方法
基于签名的方法


排除相同URL的网页消重方法

它分析来自不同搜索引擎的网页 URL
相同的 URL 认为是相同的网页
或是不同的 URL
但是 IP 相同也认为是相同网页

特点:

简单以实现,可以消除一部分相同网页

缺点:

没有利用网页的文本内容信息

不能对转载造成的内容重复的网页消重



基于聚类的网页消重方法

基于网页文本内容的算法

A

    用基于文本中汉字的字频来来构造网页文本的空间向量,由于每个汉字对内容表达的重要性不一样,因此对不同的汉字赋予不同的权重

B

     汉字在网页中的字频乘以权重表示该汉字分量的大小


基于聚类的网页消重方法

C

   所有汉字的分量构成了网页文本的空间向量

D

    通过计算两个网页文本空间向量的夹角来评估两个网页的相似度

E

    当两个网页的夹角小于某一个值时,就认为他们是同一类别



几种常用的聚类方法


单遍聚类法
逆中心聚类法
密度测试法
图聚类法



百度大叔

谷歌大婶



聚类的网页消重方法的特点


简单易于实现
   不足之处是聚类复杂度为 O n^2

   对于大规模网页的聚类,计算量过大

   只利用了字频,没有利用文本的结构信息

实时性很差,每加入新的网页都要重新聚类

 基于特征码的方法

u 利用汉字中的标点符号信息,以句号前后  的各五个汉字信息作为特征码来唯一标示网页
u 这种方法利用汉语言表达的特点来取得特征码,将特征码的精确匹配与先进的搜索技术联系起来,消重率较高

基于签名的方法

ü 这种算法把一篇网页按一定的原则分成 N 段(如每 n 行作为一段),然后对每一段进行签名(即计算指纹),于是每一篇文档就可以用 N 个签名后的指纹来表示。
ü 对于两篇文档,当它们的 N 个签名中有 M 个相同时( m 是系统定义的阈值),则认为它们是互为转载的网页。


基于 Map/Reduce 的网页消重并行算法
基于元搜索的网页消重算法
XX 算法










  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值