python百度贴吧登录协议_python爬虫解决百度贴吧登陆验证码问题

作为贴吧重度用户,写了个贴吧爬虫脚本

抄了一些别人的代码。记得有个验证码解决的。可是忘了链接了,今天最终自己攻克了。

首先要让登陆须要验证码,不停地登陆就好了。。。度娘非常快会加上验证码大法的。。。

须要验证码的情况下,直接登陆返回的错误信息是error=257

打开贴吧首页选择登陆,弹出验证码,找到验证码的链接是

右键在新标签页中打开

注意到链接是

这个时候依据之前写的代码,判定登陆成功是依据post登录数据之后返回的一串链接,链接格式是这样:

最后面的error=0代表没有错误,登陆成功,当须要验证码时,返回的链接redirectURL大约是这种

除了error=257之外。还出现了

codestring=jxIcaptchaservice616462355546386b494679704d7678684f666d4d5645364a567a376c615563564e43795356514d774378374e63742f44596b367733625a7176766a41706a794f58435365586732506a73376a4f7877784f326442314469774e654575653558747a78657a756639336a2f77674c6f6e34415a396f445952356f326d454e6969325133656c5854754c727257442f796d7332676f4c61612f565946526148586758597a61502f697174715a686b2b5455332f56574f42522f5649415767504b6e3847737a367930587069577a5077796c696f38544957332b43564c444259514c6c7763766a626e7147674e726d39422b6b36777a2f46417a766a6345315768597a35426775774442674973553074444a694f4b766c6a4e5261664d65462b4b4b6e5a547159594d6a4c4c76747a7159596a307a3879306642455355752b3078317849694a664e546a36

这一串參数,似乎正好和验证码链接吻合,于是写了一段代码生成链接并获取图片:

vcodeMatch=re.search(r'codestring=jxIcaptchaservice\S+&username',redirectURL)

vcodeNum=vcodeMatch.group(0)[11:-9]

vcodeUrl='https://passport.baidu.com/cgi-bin/genimage?'+vcodeNum

vcodeRequest=urllib2.Request(vcodeUrl)

vcodeResponse=urllib2.urlopen(vcodeRequest)

with open('vcode.jpg','wb') as out:

out.write(vcodeResponse.read())

out.flush()

vcode=raw_input(u'input vcode:')

rawData['verifycode']=vcode

rawData是post的数据,加上验证码时候再次post过去。測试的时候发现并没有登陆成功,变成了不停输入验证码= =

再次到网页上找原因。找到post传递的參数中

除了verifycode之外还有个codestring。加到post參数里面就成功了

所以加上一句:

rawData['codestring']=vcodeNum

測试结果

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值