爬虫学习笔记01-概念

最新推荐文章于 2024-10-01 20:02:09 发布

RWLinno

最新推荐文章于 2024-10-01 20:02:09 发布

阅读量652

点赞数

分类专栏：爬虫 python 文章标签：爬虫学习笔记 python 网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SC_Linno/article/details/131040906

版权

python 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

文章介绍了网络爬虫的基本概念，包括如何通过编程模拟浏览器抓取数据，以及网站采用的反爬机制和爬虫的反反爬策略。同时，提到了robots协议在爬虫行为规范中的作用，和常见的请求头信息如User-Agent。此外，讨论了爬虫可能带来的合法性和风险问题，以及如何避免这些风险。最后，简要概述了爬虫的分类（通用、聚焦、增量）和几种加密方式。

摘要由CSDN通过智能技术生成

爬虫学习笔记01-概念

网络爬虫：通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程。

反爬机制：门户网站可以通过制定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取。

反反爬策略：爬虫程序也可以通过制定相关的策略或者技术手段，破解门户网站具备的反爬机制，从而获取门户网站的数据。

robots协议：君子协议。规定网站内容中哪些可以爬取，哪些不可以被爬取。

常用请求头信息

-user-agent:请求载体的身份标识
-connection:请求完毕后，是断开连接还是保持连接

爬虫的合法性

爬虫本身不被禁止
获取数据具有违法风险
善意爬虫和恶意爬虫

爬虫的风险

爬虫干扰了被访问网站的正常运营
爬虫抓取了收到法律保护的特定类型的数据或信息

如何避免风险

时常优化自己的程序，避免干扰被访问网站的正常运行
在使用/传播爬取到的数据时，审查抓取到的内容，发现涉及到用户隐私和商业机密等敏感内容，需要及时停止爬取/传播。

爬虫的分类

通用爬虫：搜索引擎抓取系统的重要组成部分。抓取的是一整张页面数据
聚焦爬虫：是建立在通用爬虫的基础之上。抓取去的是页面中特定的局部内容。
增量爬虫：检测网站中数据更新的情况。只会抓取网站中最新更新出来的内容。

加密方式

对称密钥加密：客户端加密->传输密钥和加密信息->服务端解密
非对称密钥加密：创建密钥对->将公钥发送给客户端->使用服务端发送的密钥对消息进行加密->将加密信息发送给服务端->使用私钥对信息进行解密
证书密钥加密：公开密钥->证书认证机构->给公钥签名->证书

UA：User-Agent(请求载体的身份标识)

UA检测
- 门户网站的服务器会检测对应请求的载体身份标识，如果检测到请求的载体为某一款浏览器，说明该请求是一个正常请求。
- 但是，如果检测到请求的载体身份标识不是基于某一款浏览器的，则表示该请求是基于爬虫的，服务器端很有可能拒绝该请求。
UA伪装：让爬虫对应的请求载体身份标识伪装成某一款浏览器。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

RWLinno 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。