记一次基于Cloudflare服务的爬虫

最新推荐文章于 2024-06-26 09:30:17 发布

weixin_30399055

最新推荐文章于 2024-06-26 09:30:17 发布

阅读量1.9k

点赞数

文章标签：爬虫 java python

原文链接：http://www.cnblogs.com/asche/p/11143886.html

版权

本文记录了一次使用Python爬取使用Cloudflare CDN服务的网站时遇到的挑战，包括乱码问题、验证码难题及JS引起的重定向。通过调整编码方式、设置全局代理和逐个排查JS文件来解决问题。

摘要由CSDN通过智能技术生成

前言

前几天有个朋友托我帮忙爬一个网站，第一次打开那个网站时，我去，它竟然就要验证码，不过当时是想加几个header应该就能解决，不过事实证明我还是错了。接下来将记录下爬虫中遇到的一些坑以及解决办法。

开始

相关

目标网站：AVADA – Avada Commerce
使用了Cloudflare的cdn服务，而且Cloudflare又和百度有合作，所以我们的访问异常时，就会被百度的云加速服务给拦截下来。

乱码问题

本来是准备用比较拿手的java写此次爬虫，java请求返回的内容总是出现一些乱码的问题。已经设置为utf-8方式并且像gzip、br等解压缩都尝试了，稍微好点的情况只有body标签内的内容为乱码，糟糕的情况就是整个返回的内容皆为乱码。后来就用python试了试，乱码问题直接没了，有点迷！

验证码问题

之前用python解决乱码问题后，紧接着又出现的就是访问需要验证码了。当时我是浏览器里访问不需要验证码，但python访问不管如何，一直出现百度云加速的验证码认证。出现这种情况，我的第一反应是python中是不是少了某些关键头部，于是将浏览器中的header带到python中一一去试，但并没有起到啥作用。这里我就贼纳闷了，究竟为甚吗？？？后来才突然想起来我

最低0.47元/天解锁文章

weixin_30399055

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
记一次基于Cloudflare服务的爬虫

前言前几天有个朋友托我帮忙爬一个网站，第一次打开那个网站时，我去，它竟然就要验证码，不过当时是想加几个header应该就能解决，不过事实证明我还是错了。接下来将记录下爬虫中遇到的一些坑以及解决办法。开始相关目标网站：AVADA – Avada Commerce使用了Cloudflare的cdn服务，而且Cloudflare又和百度有合作，所以我们的访问异常时，就会被百度的云...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。