记一次基于Cloudflare服务的爬虫_java 爬虫 cloudflare-CSDN博客

本文链接：https://blog.csdn.net/asnet_/article/details/94889639

本文记录了一次爬取使用Cloudflare CDN服务的网站时遇到的挑战，包括乱码、验证码和JS导致的重定向问题。通过切换编程语言、设置全局代理以及逐个排查JS文件，最终成功解决了这些问题。

摘要由CSDN通过智能技术生成

前言

前几天有个朋友托我帮忙爬一个网站，第一次打开那个网站时，我去，它竟然就要验证码，不过当时是想加几个header应该就能解决，不过事实证明我还是错了。接下来将记录下爬虫中遇到的一些坑以及解决办法。

开始

乱码问题

本来是准备用比较拿手的java写此次爬虫，java请求返回的内容总是出现一些乱码的问题。已经设置为utf-8方式并且像gzip、br等解压缩都尝试了，稍微好点的情况只有body标签内的内容为乱码，糟糕的情况就是整个返回的内容皆为乱码。后来就用python试了试，乱码问题直接没了，有点迷！

验证码问题

之前用python解决乱码问题后，紧接着又出现的就是访问需要验证码了。当时我是浏览器里访问不需要验证码，但python访问不管如何，一直出现百度云加速的验证码认证。出现这种情况，我的第一反应是python中是不是少了某些关键头部，于是将浏览器中的header带到python中一一去试，但并没有起到啥作用。这里我就贼纳闷了，究竟为甚吗？？？后来才突然想起来我浏览器走了代理，于是我干脆给电脑设置了个全局代理，然后用python继续访问，让人感动的一幕发生了-----> 命令行中返回了目标网站的页面源代码！这时我才察觉，我的本地IP已经进入了目标网站的黑名单 。到这里，验证码也就绕过了。

JS导致页面url发生重定向

在把前面的目标网站的页面下载到本地后，然后用浏览器打开该文件，浏览器会加载页面中的一些图片css还有js等资源文件，其中有个js会检测当前页面url中的协议是否是https，如果不是，将重定向至对应的https协议的页面。这里显然，我们打开的本地文件url是文件的目录，不是以https开始的。
比如火狐浏览器中打开目标文件，地址栏的url如下

file:///C:/Users/Asche/vscode/Shopify/temp/Customers/How%20to%20add%20or%20edit%20a%20customer%E2%80%99s%20address.html

被重定向后的url如下

https://c/Users/Asche/vscode/Shopify/temp/Customers/How%20to%20add%20or%20edit%20a%20customer%E2%80%99s%20address.html

显然，重定向后的页面是不存在的。当然，我们也可以在页面重定向前手动取消重定向的请求，不过这样毕竟体验不好，所以继续想办法解决重定向问题。
于是，准备寻找起重定向作用的·js代码，浏览一番渲染后的页面源代码，发现在body标签结束前，多了这样一段代码：

<script type="text/javascript" id="">"https:"!=location.protocol&&(location.href="https:"+window.location.href.substring(window.location.protocol.length));</script>