白帽黑客学习之路-python篇-网络爬虫

最新推荐文章于 2024-05-06 10:25:22 发布

Yuki程序员

最新推荐文章于 2024-05-06 10:25:22 发布

阅读量812

点赞数

文章标签： python 爬虫学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Yuki1127918/article/details/126350240

版权

本文介绍了网络爬虫的基本原理，包括通用、聚焦、增量式和深层网络爬虫的分类，强调了爬虫过程中应注意的法律问题。同时，提供了Python学习路径、必备工具、书籍推荐和实战案例，为Python爬虫学习者提供全面的资源和指导。

摘要由CSDN通过智能技术生成

网络爬虫

又称“网络蜘蛛”，实现自动采集网络数据的程序。

爬虫基本原理

设定一个或多个初始网页URL，并将初始的URL加入到带爬取的URL列表中
从带爬取的列表中逐步读取URL，并将URL加入已爬取的URL列表中然后下载网页
解析已经下载的网页，提取所需的数据和型的URL，并存储提取的数据
新的URL与爬取过的URL对比，检查网页是否已经被爬取，若没有则将新的URL放到带爬取URL列表的末尾，等带爬取
知道待爬取的列表为空或满足设定的总之条件最终达到遍历整个网页的目的

网络爬虫分类

通用网络爬虫又称全网爬虫，是根据网络爬虫的的基本原理实现的，所爬取的目标是从初始设定的URL扩充到全网。通常应用于门户网站，搜索引擎和大型服务提供商的数据采集。

聚焦网络爬虫的目标是与预先定义好的主题相关的网页。它值选择爬取与主题相关的网页。极大的节省了硬件和网络资源，它主要是应用于对特定领域信息有需求的场景聚焦爬虫在通用爬虫基础上，需要对提取的新URL进行过滤处理，过滤掉与目标主题无关的网页，且根据一定的相关性搜索策略，确定待爬取URL列表的读取顺序。

增量式网络爬虫的目标是有更新的已下载网页和新产生的网页。

深层网络爬虫爬取的目标是不能通过静态链接获取的，隐藏在搜索表单后的，只能用户提交一些关键词才能获取的页面，比如用户注册才可显示内容的网页。

爬取数据是因该注意一下几点：

侵犯著作权
侵犯商业机密
侵犯个人隐私
构成不正当竞争
侵入计算机系统，构成犯罪

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
白帽黑客学习之路-python篇-网络爬虫

极大的节省了硬件和网络资源，它主要是应用于对特定领域信息有需求的场景聚焦爬虫在通用爬虫基础上，需要对提取的新URL进行过滤处理，过滤掉与目标主题无关的网页，且根据一定的相关性搜索策略，确定待爬取URL列表的读取顺序。当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。