爬虫之反爬虫技术

学习爬虫肯定要了解反爬虫技术,因为在你爬取网页的时候不可避免的会遇到各种各样的反爬虫技术,但是大致可以分为四类
1.robots.tet文件,这是一个君子协定,你遵守也行,不遵守也行,但是一般情况下我是不遵守的,我不是君子
2,通过你的访问频率来判断你是否是爬虫,这个我们可以通过下载限速来规避,也可以使用代理ip达到目的
3.通过User-Agent来控制访问,这个我在上一篇博客中提到过详细的内容,想看的可以去看一下https://blog.csdn.net/oyjl19961216/article/details/82776349
4,通过ajax来实现反爬虫,这个是爬虫中遇到的最难得问题,因为如果一个网页是ajax请求的话,那么你的requests.get 或post 都不会得到任何有用的数据,不过道高一尺魔高一丈,咳咳,是一山更比一山高,我们还可以使用selenium来解决这个问题,这是使用selenium的详解https://blog.csdn.net/oyjl19961216/article/details/82777897

谢谢大家

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值