python数据处理——攻破cookies之cf_clearance

可能很多小伙伴在做网站爬虫的时候,会遇到这样一种情况,在设置requests的header的时候,只设置User-Agent字段的时候,返回的结果是503,这时候的话,首先第一步要做的是看一看是不是自己之前太狂了,爬页面时候没加个延时,被对方主机干掉了,一般这种也不是永久性的。

但是如果确定不是这种原因而是第一次就不行的话,那就可能是要用到本文提到的这个攻破cf_clearance的工具了。

首先呢,这个字段的由来出于此保护机制:cloudflare,当然就是进行人机校验的工具。很多网站都会用。

笔者毕业设计做的是数字货币的交易研究,在爬取这个网站遇到了它的阻挠,之前采取的办法是每天都复制粘贴一下Requests的cookies的内容,放到我爬虫的header里面,可想而知很麻烦。

经过笔者检验,在cookies的所有字段中,__cfduid;_session_id;cf_clearance这三个字段是必要的,其他都可以没有。

session_id比较容易,回话的id一般是在第一次进入该网站时候生成,只要我们的爬虫在本地保持就可以了,具体的操作方法可以是:第二次访问就自动保持了session_id,而另外两个字段则需要用该工具

s = req.session()
res = s.get(url,headers = header)

data = s.get(url_new,headers = header2)

 安装好之后,按照教程里的,使用如下的代码:

import subprocess
import cfscrape

# With get_tokens() cookie dict:

# tokens, user_agent = cfscrape.get_tokens("http://somesite.com")
# cookie_arg = "cf_clearance=%s; __cfduid=%s" % (tokens["cf_clearance"], tokens["__cfduid"])

# With get_cookie_string() cookie header; recommended for curl and similar external applications:

cookie_arg, user_agent = cfscrape.get_cookie_string("http://somesite.com")

# With a custom user-agent string you can optionally provide:

# ua = "Scraping Bot"
# cookie_arg, user_agent = cfscrape.get_cookie_string("http://somesite.com", user_agent=ua)

result = subprocess.check_output(["curl", "--cookie", cookie_arg, "-A", user_agent, "http://somesite.com"])

 

其中cookie_arg就是拿到了上面两个字段的变量:

 

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
易语言过五秒云防护源码 开始分析吧 直接提交会进入五秒防护页面 有这条cookie就不会了  cf_clearance=e87fbd2a47fa12a88e753e1eb17c62ea3f43d170-1564667178-1800-150 看看cookie从哪儿来的 提交这个url返回的cookie  https://www.cbt-coin2.com/cdn-cgi/l/chk_jschl?s=651c8e8a2b2e045e9309f00586d153fd4009fbc7-1564667174-1800-AY+ThdHTv12dh4eGsyfd0dBFGQY/SQiD/LvNLfz5P5iZgQdGxxFTjj3mcsVSsg6uCaG6wEtfR9QT6K3PIYVpGuX1134g+jJr4gWWx4aypT2irbcfmxJ5iTwfb1cW0wgSW5FsbF0c8BnWWIVFR5TcgN8=&jschl_vc=05b889c20c40123cf2726c583aa17ea2&pass=1564667178.083-1Na9bTwNvd&jschl_answer=23.7315576809 刚才没这个页面 可以看到四个参数有三个都是页面直接获取的  主要是计算jschl_answer参数   看看js吧 <input type="hidden" name="s" value="a435cf6d78a0c00a88ed5a86b46f07f72bfa1c82-1564667350-1800-ARAmHfr4jOsB+pNpP2X8VsXCkw1saBv6c8+ugZoOfMQ2EA1HuWP8YctpxnvFzEFu6FWAA8pOZ5tpPugcx7lpB1O7yo8N5gq2uDwwRAM9V6gLvjJsXoWX4dnzKFcjeh6hcG7myKJgAWnz0kE3tt9fQMY="></input> <input type="hidden" name="jschl_vc" value="edbe716597c6d800ef2f9bce55cb218b"/> <input type="hidden" name="pass" value="1564667354.805-EYaNXMZWoC"/> <input type="hidden" id="jschl-answer" name="jschl_answer"/> 主要就是这段js  直接抠下来看看 这种直接删掉就好了  t这个参数好像很重要  我们看看t是什么 t是这个链接  我们把t这个参数直接填这个就行了 没用的就直接删掉  然后关键的来了  a的值等于这个  然后js里 我们需要的jschl_answer就是a  我们直接改下 让他返回这个 这就出来了。。。也不是很难  对比一下是一样的   直接改易语言代码吧 时间问题就不重写了 主要问题是必须要延时  不然返回不正常 看把  不加延时就还是防火墙   加上延时就正常了
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

量化橙同学

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值