记一次基于Cloudflare服务的爬虫

前言

前几天有个朋友托我帮忙爬一个网站,第一次打开那个网站时,我去,它竟然就要验证码,不过当时是想加几个header应该就能解决,不过事实证明我还是错了。接下来将记录下爬虫中遇到的一些坑以及解决办法。

开始

相关

目标网站:AVADA – Avada Commerce
使用了Cloudflare的cdn服务,而且Cloudflare又和百度有合作,所以我们的访问异常时,就会被百度的云加速服务给拦截下来。

乱码问题

本来是准备用比较拿手的java写此次爬虫,java请求返回的内容总是出现一些乱码的问题。已经设置为utf-8方式并且像gzip、br等解压缩都尝试了,稍微好点的情况只有body标签内的内容为乱码,糟糕的情况就是整个返回的内容皆为乱码。后来就用python试了试,乱码问题直接没了,有点迷!

验证码问题

之前用python解决乱码问题后,紧接着又出现的就是访问需要验证码了。当时我是浏览器里访问不需要验证码,但python访问不管如何,一直出现百度云加速的验证码认证。出现这种情况,我的第一反应是python中是不是少了某些关键头部,于是将浏览器中的header带到python中一 一去试,但并没有起到啥作用。这里我就贼纳闷了,究竟为甚吗???后来才突然想起来我

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值