实战Python网络爬虫笔记之一基础知识

本文介绍了Python网络爬虫的四种类型:通用、聚焦、增量式和深层网络爬虫,详细阐述了爬虫的工作原理、搜索策略以及开发流程。讨论了爬虫的合法性问题,并提到了HTTP与HTTPS协议的基础知识。同时,强调了Chrome开发者工具和Fiddler在爬虫分析和调试中的重要作用,最后提及Python中的urllib库作为爬虫开发的基础工具。
摘要由CSDN通过智能技术生成

一,爬虫类型

依系统结构和开发技术可分4类:
通用网络爬虫
聚焦网络爬虫
增量式网络爬虫
深层网络爬虫

通用网络爬虫又称全网爬虫,如百度,谷歌,必应等搜索引擎
特点:
1,算法不对外公布;
2,爬取范围和数量巨大,爬取速度和存储空间要求高,爬取页面的顺序要求相对较低;
3,待刷新页面多,通常采用并行工作方式,但需要较长时间才能刷新一次页面;
4,适用于为搜索引擎搜索广泛的需求,

聚焦网络爬虫又称主题网络爬虫,是选择性的爬取需要的主题相关页面

增量式网络爬虫是对已下载网页采取增量式更新和只爬取新产生或已经发生变化的网页的爬虫,
它不重新下载没有变化的页面,可有效减少数据下载量,及时更新已爬取的网页,减小时间和空间上的耗费,
但增加了爬取算法的复杂度和实现难度,这类不太普及。

深层网络爬虫是大部分内容不能通过静态URL获取的,隐藏在搜索表单后的,只有用户提交一些关键词才能获得的网络页面。
比如一些需要用户登录或通过提交表单实现提交数据。此类为研究重点。

二,爬虫原理

#通用爬虫实现的原理及过程

初始URL
def inter_worm (URL)
if 待捉取URL:
	读取URL并解释网页内容
	数据入库
	获取新URL
	if 获取新URL:
		inter_worm(URL)
	if 满足停止条件:	
		结束
if 满足停止条件:	
	结束

聚焦网络爬虫执行原理和过程与通用爬虫大致相同,在其基础上增

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值