实战Python网络爬虫笔记之一基础知识

最新推荐文章于 2024-08-06 17:59:13 发布

不老张

最新推荐文章于 2024-08-06 17:59:13 发布

阅读量314

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/qq_41952762/article/details/108366656

版权

本文介绍了Python网络爬虫的四种类型：通用、聚焦、增量式和深层网络爬虫，详细阐述了爬虫的工作原理、搜索策略以及开发流程。讨论了爬虫的合法性问题，并提到了HTTP与HTTPS协议的基础知识。同时，强调了Chrome开发者工具和Fiddler在爬虫分析和调试中的重要作用，最后提及Python中的urllib库作为爬虫开发的基础工具。

摘要由CSDN通过智能技术生成

一，爬虫类型

依系统结构和开发技术可分4类：
通用网络爬虫
聚焦网络爬虫
增量式网络爬虫
深层网络爬虫

通用网络爬虫又称全网爬虫，如百度，谷歌，必应等搜索引擎
特点：
1，算法不对外公布；
2，爬取范围和数量巨大，爬取速度和存储空间要求高，爬取页面的顺序要求相对较低；
3，待刷新页面多，通常采用并行工作方式，但需要较长时间才能刷新一次页面；
4，适用于为搜索引擎搜索广泛的需求，

聚焦网络爬虫又称主题网络爬虫，是选择性的爬取需要的主题相关页面

增量式网络爬虫是对已下载网页采取增量式更新和只爬取新产生或已经发生变化的网页的爬虫，
它不重新下载没有变化的页面，可有效减少数据下载量，及时更新已爬取的网页，减小时间和空间上的耗费，
但增加了爬取算法的复杂度和实现难度，这类不太普及。

深层网络爬虫是大部分内容不能通过静态URL获取的，隐藏在搜索表单后的，只有用户提交一些关键词才能获得的网络页面。
比如一些需要用户登录或通过提交表单实现提交数据。此类为研究重点。

二，爬虫原理

#通用爬虫实现的原理及过程

初始URL
def inter_worm (URL)
if 待捉取URL:
	读取URL并解释网页内容
	数据入库
	获取新URL
	if 获取新URL：
		inter_worm(URL)
	if 满足停止条件：	
		结束
if 满足停止条件：	
	结束

聚焦网络爬虫执行原理和过程与通用爬虫大致相同，在其基础上增

最低0.47元/天解锁文章

不老张

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录