python爬虫实战1-基础篇1

最新推荐文章于 2023-09-27 19:30:00 发布

鹏鹏写代码

最新推荐文章于 2023-09-27 19:30:00 发布

阅读量327

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/qq_44176343/article/details/107347946

版权

本文介绍了Python爬虫的基础知识，包括通用网络爬虫、聚焦网络爬虫、增量式网络爬虫和深层网络爬虫的结构和策略。讨论了HTTP、HTTPS、HTML、CSS、JavaScript、Session和Cookie在爬虫中的作用，以及正则表达式和XPath在网页信息查找中的应用。

摘要由CSDN通过智能技术生成

1.爬虫入门

爬虫按照系统结构和实现技术分类：通用网络爬虫、聚焦网络爬虫，增量式网络爬虫和深层网络爬虫。

通用网络爬虫

用途：目标资源就是全互联网中，爬取数量巨大，对爬取性能要求非常高，用于大型搜索引擎，有非常高的应用价值。
结构：URL集合，URL队列，页面爬行模块，页面分析模块，页面数据库，链接过滤模块
策略：主要有深度优先爬虫策略和广度优先爬虫策略。

聚焦网络爬虫

用途：爬取定位在与主题相关的页面中，主要应用于对特定信息的爬取，主要为一些特定的人群提供服务，
结构：初始URL，URL队列，页面爬行模块，页面分析模块，页面数据库，链接过滤模块，内容评价模块，链接评价模块等构成。
策略：基于内容评价的爬行策略，基于链接评价的爬行策略，基于增强学习的爬行策略，基于语境的爬行策略。

增量式网络爬虫

用途：对已下载网页采取增量式更新和只爬行新产生的或已经发生变化网页的爬虫，它能够在一定程度上保证所爬行的页面尽可能新的页面。在需要时爬行新产生或者发生更新的页面。并不重新下载没有变化的页面，减少数据下载量，及时更新已爬行的网页，减少时间和空间上的耗费，但是增加了爬行算法的复杂度和实现难度。
体系结构：爬行模块，排序模块，更新模块，本地页面集，带爬行URL集，本地页面URL集。

最低0.47元/天解锁文章

鹏鹏写代码

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
python爬虫实战1-基础篇1

1.爬虫入门爬虫按照系统结构和实现技术分类：通用网络爬虫、聚焦网络爬虫，增量式网络爬虫和深层网络爬虫。通用网络爬虫用途：目标资源就是全互联网中，爬取数量巨大，对爬取性能要求非常高，用于大型搜索引擎，有非常高的应用价值。结构：URL集合，URL队列，页面爬行模块，页面分析模块，页面数据库，链接过滤模块策略：主要有深度优先爬虫策略和广度优先爬虫策略。聚焦网络爬虫用途：爬取定位在与主题相关的页面中，主要应用于对特定信息的爬取，主要为一些特定的人群提供服务，结构：初始URL，URL队列，页面爬
复制链接

扫一扫