爬虫基本概念

最新推荐文章于 2024-03-29 12:08:24 发布

V_lq6h

最新推荐文章于 2024-03-29 12:08:24 发布

阅读量852

点赞数

分类专栏： Spider

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/V_lq6h/article/details/102952501

版权

Spider 专栏收录该内容

22 篇文章 11 订阅

订阅专栏

爬虫基本概念

一.爬虫的概念

网络爬虫又称为网络蜘蛛,网络机器人,是一种按照一定的规则,自动请求万维网网站并提取网络数据的程序或脚本

二.爬虫的分类

通常可以按照不同的维度对网络爬虫进行分类;按照使用场景,可将爬虫分为通用爬虫和聚焦爬虫;按照爬取形式,可分为累积式爬虫和增量式爬虫;按照爬取数据的存在方式,可分为表层爬虫和深层爬虫

1.通用爬虫和聚焦爬虫

通用爬虫是搜索引擎爬取系统(Baidu,Google等)的重要组成部分,主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份;聚焦爬虫是"面向特定主题需求"的一种网络爬虫程序

通用爬虫

通用爬虫又称为全网爬虫,它将爬取对象从一些种子URL扩充到整个网络,主要用途是为门户站点搜索引擎和大型Web服务提供商采集数据

通用爬虫的爬行范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低.同时由于待刷新的页面太多,通常采用并行工作方式,但需要较长时间才能刷新一次页面

聚焦爬虫

聚焦爬虫又称为主题网络爬虫,是指选择性爬行那些与预先定义好的主题相关的页面的网络爬虫

2.累积式爬虫和增量式爬虫

累积式爬虫

累积式爬虫是指从某一个时间点开始,通过遍历的方式爬取系统所允许存储和处理的所有网页

增量式爬虫

增量式爬虫是指在具有一定量规模的网络页面集合的基础上,采用更新数据的方式选取已有集合中的过时网页进行爬取,以保证所爬取到的数据与真实网络数据足够接近.进行增量式爬取的前提是：系统已经爬取了足够数量的网络页面,并具有这些页面被爬取的时间信息

累积式爬取一般用于数据集合的整体建立或大规模更新阶段;而增量式爬取则主要针对数据集合的日常维护与即使更新

3.表层1爬虫和深层爬虫

表层爬虫

爬取表层网页的爬虫叫作表层爬虫.表层网页是指传统搜索引擎可以索引的页面,以超链接可以到达的静态网页为主构成的Web页面

深层爬虫

深层网页是那些大部分内容不能通过静态链接获取到,隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面.例如用户注册后内容才可见的网页就属于深层网页

深层爬虫过程中最重要的部分就是表单填写,包含两种类型：

基于领域知识的表单填写：此方法一般会维持一个本体库,通过语义分析来选取合适的关键词填写表单
基于网页结构分析的表单填写：此方法一般无领域知识或仅有有限的领域知识,将网页表单表示成DOM树,从中提取表单各字段的值

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫基本概念

爬虫基本概念一.爬虫的概念网络爬虫又称为网络蜘蛛,网络机器人,是一种按照一定的规则,自动请求万维网网站并提取网络数据的程序或脚本二.爬虫的分类通常可以按照不同的维度对网络爬虫进行分类;按照使用场景,可将爬虫分为通用爬虫和聚焦爬虫;按照爬取形式,可分为累积式爬虫和增量式爬虫;按照爬取数据的存在方式,可分为表层爬虫和深层爬虫1.通用爬虫和聚焦爬虫通用爬虫是搜索引擎爬取系统(Baidu...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。