- 博客(3)
- 资源 (1)
- 收藏
- 关注
原创 网络爬虫-破解京东滑块验证码
最近一直在研究滑块验证码这一块,接连破解了极验2.0,极验3.0以及淘宝滑块,当然了,只是使用selenium模拟过,拿到cookie后进行后续操作。今天就讲讲京东这个滑块验证码,神坑,之前的轨迹方程全部不可用,需要自己慢慢调试,找到最佳参数,最大化模拟人为操作才能过,目前我过的几率为80%左右。京东登陆页面京东这个滑块验证码的最大的坑就在于 大量的模拟人为的轨迹方程都被封了 比如过极验2...
2018-10-31 15:31:45 29546 43
原创 网络爬虫-爬取一卡通企业数据保存CVS
最近被各种encode,decode折磨得死去活来的,保存到json,csv或者txt各种乱码,实在了令人抓狂,有些明明是正确输出在pycharm上的,但是保存的时候就乱码了,今天就记录一下采坑过程。以一卡通世界官网为例(保存至CSV):以上便是需要保存的字段了。代码如下:import requestsfrom lxml import etreeimport csvimport ...
2018-10-24 15:51:01 11350
原创 网络爬虫-绕过debugger反爬(Paused in debugger)
最近发现很多网站出现了前端反调试debugger来反爬,防止数据被抓取,实际上是很简单的原理,其实也就是js搞的鬼,看来作为一名合格的爬虫工程师,在js的道路上也会越走越远–!废话不多说,看图→Paused in debugger, 是不是看着很熟悉,接下来就是如何solve它。首先我们需要找到call stack里是什么阻断了我们,比如七麦网,我们可以看到,e参数以及t参数,我们双击进去,...
2018-10-15 17:10:32 25297 23
Python爬虫开发与项目实战
2018-10-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人