爬虫进阶 -- 爬虫相关定义、反爬机制及其破解

最新推荐文章于 2024-05-13 17:48:00 发布

啦啦啦___123

最新推荐文章于 2024-05-13 17:48:00 发布

阅读量1.7k

点赞数 4

分类专栏： Spider-爬虫文章标签：爬虫反爬虫 headers python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hhr603894090/article/details/119642260

版权

经历了好几个小爬虫项目的“摧残”后，我想着不能白做，于是四处搜集和学习，便有了这篇笔记文章。

目录

什么是爬虫和反爬虫

Headers相关概念

一种好用的爬虫

二、加解密网页源码

三、实行访问IP限制

四、监测用户行为

五、Headers内容检测

六、登陆验证码

七、Ajax动态加载

一、定义

什么是爬虫和反爬虫

爬虫：使用任何技术手段，批量获取网站信息的一种方式。
反爬虫：使用任何技术手段，阻止别人批量获取自己网站信息的一种方式。

Headers相关概念

host：提供了主机名及端口号
Referer 提供给服务器客户端从那个页面链接过来的信息（有些网站会据此来反爬）
Origin：Origin字段里只包含是谁发起的请求，并没有其他信息.(仅存于post请求)
User agent: 发送请求的应用程序名（一些网站会根据UA访问的频率间隔时间进行反爬）
proxies：代理，一些网站会根据ip访问的频率次数等选择封ip.
cookie：特定的标记信息，一般可以直接复制，对于一些变化的可以选择构造.(session=requests.session()自动把cookie信息存入response对象中)

一种好用的爬虫

大型爬虫都用Scrapy框架，这个框架我没学过，但是很难。
还有一个简单好用的，那就是Python的Selenium包，这是一个模拟浏览器的程序，可以在其中编辑形成爬取程序，由于模拟浏览器，有效的避过了UA检查，也可以读取cookies，还由于加载了页面，不用考虑Ajax动态网页的问题。

二、加解密网页源码

最低0.47元/天解锁文章

啦啦啦___123

关注

4
点赞
踩
25

收藏

觉得还不错? 一键收藏
9
评论
爬虫进阶 -- 爬虫相关定义、反爬机制及其破解

经历了好几个小爬虫项目的“摧残”，我想着不能白做，于是有了这篇文章。什么是爬虫和反爬虫爬虫：使用任何技术手段，批量获取网站信息的一种方式。反爬虫：使用任何技术手段，阻止别人批量获取自己网站信息的一种方式。Headers相关概念
复制链接

扫一扫

专栏目录

评论 9

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。