python 网页消重

最新推荐文章于 2023-01-05 14:57:29 发布

Tobefrank

最新推荐文章于 2023-01-05 14:57:29 发布

阅读量705

点赞数

分类专栏： Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sz457763638/article/details/53674075

版权

Python 专栏收录该内容

29 篇文章 0 订阅

订阅专栏

神马是网页消重？？

1 在爬虫的过程中，我们常常会遇到主题内容相同的网页。

2 由于标题不一样，内容有细微的偏差，也许我们的爬虫会误认为两个网页是不同的。

俺就是网页消重技术！！

网页消重技术是指对内容重复的网页进行识别，处理和合并，以节省网页数据库的存储空间和在网页，数据库上进行操作的时间的过程

为神马要进行网页消重

l 它们不仅会影响用户搜索结果 , 而且会严重影响爬虫系统的执行效率。

l 不仅占用网络带宽，又浪费存储资源

l 网页净化与消重是大规模搜索引擎系统预处理环节的重要组成部分

重复网页的两种类型

• 一种是通过各网站间的直接转载而形成的内容基本一致的网页 ---- 可以在服务器端，在搜索引擎采集网页的过程中进行消重处理

• 一种是对网页进行了适度的加工后而形成的重复网页 ---- 根据客户的不同要求提供是否在客户端上对网页进行消重服务

几种消重算法

• 排除相同的 URL 方法

• 基于聚类的方法

• 基于特征码的方法

• 基于签名的方法

排除相同URL的网页消重方法

• 它分析来自不同搜索引擎的网页 URL

• 相同的 URL 认为是相同的网页

• 或是不同的 URL

• 但是 IP 相同也认为是相同网页

特点：

简单以实现，可以消除一部分相同网页

缺点：

没有利用网页的文本内容信息

不能对转载造成的内容重复的网页消重

基于聚类的网页消重方法

• 基于网页文本内容的算法

A

用基于文本中汉字的字频来来构造网页文本的空间向量，由于每个汉字对内容表达的重要性不一样，因此对不同的汉字赋予不同的权重

B

汉字在网页中的字频乘以权重表示该汉字分量的大小

基于聚类的网页消重方法

C

所有汉字的分量构成了网页文本的空间向量

D

通过计算两个网页文本空间向量的夹角来评估两个网页的相似度

E

当两个网页的夹角小于某一个值时，就认为他们是同一类别

几种常用的聚类方法

• 单遍聚类法

• 逆中心聚类法

• 密度测试法

• 图聚类法

百度大叔

谷歌大婶

聚类的网页消重方法的特点

• 简单易于实现

不足之处是聚类复杂度为 O （ n^2 ）

对于大规模网页的聚类，计算量过大

只利用了字频，没有利用文本的结构信息

• 实时性很差，每加入新的网页都要重新聚类

基于特征码的方法

u 利用汉字中的标点符号信息，以句号前后的各五个汉字信息作为特征码来唯一标示网页

u 这种方法利用汉语言表达的特点来取得特征码，将特征码的精确匹配与先进的搜索技术联系起来，消重率较高

基于签名的方法

ü 这种算法把一篇网页按一定的原则分成 N 段（如每 n 行作为一段），然后对每一段进行签名（即计算指纹），于是每一篇文档就可以用 N 个签名后的指纹来表示。

ü 对于两篇文档，当它们的 N 个签名中有 M 个相同时（ m 是系统定义的阈值），则认为它们是互为转载的网页。

• 基于 Map/Reduce 的网页消重并行算法

• 基于元搜索的网页消重算法

• XX 算法

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 网页消重

神马是网页消重？？1 在爬虫的过程中，我们常常会遇到主题内容相同的网页。2 由于标题不一样，内容有细微的偏差，也许我们的爬虫会误认为两个网页是不同的。俺就是网页消重技术！！网页消重技术是指对内容重复的网页进行识别，处理和合并，以节省网页数据库的存储空间和在网页，数据库上进行操作的时间的过程为神马要进行网页消重l它们
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。