php采集绕过cloudflare,关于pyspider绕过CloudFlare验证的问题

最新推荐文章于 2024-08-11 16:51:35 发布

weixin_39940344

最新推荐文章于 2024-08-11 16:51:35 发布

阅读量1.3k

点赞数 1

文章标签： php采集绕过cloudflare

在使用pyspider进行网页爬取时遇到CloudFlare的5秒验证，通过Anorov/cloudflare-scrape无法解决，但采用VeNoMouS/cloudscraper的get_tokens方法成功获取cookies和user_agent以绕过验证。然而，当脚本运行过程中出现验证错误或暂停后，大面积错误导致失效。可能是headers和cookies存储问题，也可能是频繁访问导致IP被封锁。寻求解决方案。

摘要由CSDN通过智能技术生成

问题在最后。

爬一个网站，遇到下图的cloudflare5秒验证

bVbEmmu

搜索了一下发现pyspider的github的issues里面已经有人指出了可以使用Anorov/cloudflare-scrape来绕过并且还提交了pull requests：

https://github.com/binux/pyspider/pull/635

我简单测试了一下，发现Anorov/cloudflare-scrape无法绕过我需要爬取的网站获取到内容，但是找到了看起来差不多但略有增强的一个包可以绕过：

https://github.com/VeNoMouS/cloudscraper

主要是通过使用该包的get_tokens方法获取cookies和user_agent传给pyspider来绕过，代码如下：

from pyspider.libs.base_handler import *

import cloudscraper

def getheader(url):

cookie_value, user_agent = cloudscraper.get_tokens(url, browser={'browser': 'chrome', 'mobile': False})

return cookie_value, user_agent

class Handler(BaseHandler):

cookie_value, user_agent = getheader('

最低0.47元/天解锁文章

weixin_39940344

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。