python爬虫学习：第一章：爬虫基础

最新推荐文章于 2023-02-27 15:55:26 发布

Lingguo_0921

最新推荐文章于 2023-02-27 15:55:26 发布

阅读量375

点赞数

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Lingguo_0921/article/details/108814981

版权

本文介绍了爬虫的基础知识，包括爬虫的定义、价值、合法性和道德规范。讨论了反爬与反反爬机制，如robots.txt协议，以及http和https协议。此外，还探讨了数据加密的不同方式。

摘要由CSDN通过智能技术生成

第一章：爬虫基础

1.什么是爬虫？

通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程。

为什么要模拟浏览器？
比如说我们打开浏览器输入一个网址或者需求后，会呈现一张页面，而页面对应的数据就是浏览器从互联网上获取的，可以认为浏览器就是最原始最天然基于爬虫的工具，浏览器可以帮助我们去互联网抓取数据。
抓取：通过编写数据可以获取完整的页面数据或者局部指定特定的页面数据*。

2. 爬虫的价值：

实际应用
就业

3. 爬虫究竟是合法的还是违法的？

在法律中不被禁止（爬取公开的数据）
具有违法风险（窃取后台数据）
善意爬虫恶意爬虫
爬虫带来的风险：
— 爬虫干扰了被访问网站的正常运营
— 爬虫抓取了受到法律保护的特定了类型的数据或信息
如何在使用编写的爬虫的过程中避免进入局子的厄运？
— 时常的优化自己的程序，避免干扰被访问网站的正常运行
— 在使用、传播爬取到的数据时，审查抓取到的内容，如果发现涉及到的用户隐私、商业机密等敏感内容需要及时停止爬取和传播。

4. 爬虫在使用场景中的分类：

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。