网络爬虫--记一次有趣的侦察型反爬手段(ebay)

起因: 偶然在群里看到一位小老弟的求助 说是某电商网站对手机号进行了反爬,我寻思之前也写过58电话解密的 就助(mian)人(wei)为(qi)乐(nan)地看一下吧 ebay网站地址 进去抓包一看 几百个请求 唰唰唰的 由于被误导了一波 以为是什么js或者异步加载的数据 于是去原网站点击...

2019-06-21 16:47:21

阅读数 17

评论数 0

网络爬虫-上传爬虫文件至阿里云OSS(以视频/图片为例)

OSS 的作用 这个OSS 存储能够帮助我们完成很多新的需求 , 如果你是土豪你可以把它当成一个网盘来使用,如果你是个后端开发者那么恭喜你,你就相当于有了一台静态资源服务器 ! 你可以把图片以及静态页面放到这里 ! 通过OSS获取需要的资源,从而减少服务器的IO操作~,不止如此,一些视频类的网站还...

2019-05-29 17:43:30

阅读数 19

评论数 0

网络爬虫-一键转换爬虫请求头headers(Fillder/各大浏览器适用)

程序员都是懒惰的~ 这个是真理! 于是有了这个一键转换请求头的神器,平时厌烦了打单双引号,逗号的童鞋可以偷懒了,咱做爬虫的,也挺不容易的~ 直接贴代码 -->(原理很简单,目前测试了fiddler和浏览器的请求头) import json def get_header(heade...

2019-05-06 15:55:52

阅读数 48

评论数 1

网络爬虫-爬取有效机构查询网(CNAS)全量数据

目标网站 --> 有效机构查询网 需求如下: 咋一看 不太难 全是静态html 且数据也都是规则的 这时候xpath工程师的作用就体现了! 于是乎先开始抓接口 查询接口 这里出现了个验证码 而且是会后端验证的(有那种只是前端验证不给后端验证的忽悠人的验证码) 还好...

2019-04-26 11:42:44

阅读数 54

评论数 2

网络爬虫-58同城·招聘联系电话js解密

一个简单的cryptojs加密的网站,58同城·招聘的隐藏电话号码 如下图示 注意,58招聘查看联系方式是需要登录授权的,所以前面的步骤一一省略,仅分析抓包请求,如何通过requests拿到我们想要的电话号码 接下来进行抓包分析,我们点击电话沟通,看看是加载了哪些请求 不难发现 这个...

2019-03-29 12:09:16

阅读数 348

评论数 5

网络爬虫-icgoo电子元件网js加密破解分析

失踪人口回归~~~ 今天是帮一个小老弟看的一个比较简单的js加密网站,考虑到一部分童鞋对js加密这块还不太熟悉,我就简单地把思路和流程捋一捋。 首先打开需要拿数据的页面 → 电子元件网AD620 哗啦啦的就加载出来了 ,然鹅右键查看源码, 一看,果然没有页面上的数据,确诊动态js加载...

2019-03-14 17:52:09

阅读数 183

评论数 4

网络爬虫-2018个人总结

概述 忙里偷闲,趁着元旦休息的这几天,在2018年的最后一天,总结一下自己在这一年遇到过的多多少少的坑以及一些心得体会吧。 粗略算下来,从事爬虫工程师这个岗位也算是一年有余了吧,从一个毛发旺盛的小伙,到一个即将面对秃头危机的油腻大叔,也只花了一年的时间~ ...

2018-12-31 18:29:50

阅读数 157

评论数 1

网络爬虫-抓取1000W百度文库doc文档

今天抓取的是百度文库doc文档,但是要求确实随机的1000万份文档并存为txt文本,下载百度文库的开源项目已经有了,那么去哪里找到1000万个百度文库doc文档的url呢,并且在短时间内下载下来。 因为爬虫是一个IO密集型业务,所以使用协程效率则最高,第一时间想到了gevent。 首先分析百度...

2018-12-10 17:46:09

阅读数 200

评论数 1

网络爬虫-使用requests上传multipart/form-data格式文件

由于以前没有使用requests上传过文件,所以今天在使用它上传文件的时候遇见了一个坑,接下来我们就来一层一层解析这个坑 以科大讯飞官网上传音频文件为例 首先是喜闻乐见地打开Fiddler进行抓包操作,流程也很简单,很快就抓下来了上传文件的这个包,见下图 然后就进入了懵逼模式,content-t...

2018-11-19 18:22:33

阅读数 373

评论数 0

网络爬虫-爬取指定城市空气质量检测数据

爬取指定城市空气质量检测数据 网站链接 → https://www.aqistudy.cn/historydata/ 以月数据为例,见下图: 然后我们通过console调试可以发现 这个网页在items里面已经将数据打包好了,如下图所示 没毛病,数据全都对得上,接下来的思路就是利用...

2018-11-15 11:15:44

阅读数 890

评论数 2

网络爬虫-破解京东滑块验证码

最近一直在研究滑块验证码这一块,接连破解了极验2.0,极验3.0以及淘宝滑块,当然了,只是使用selenium模拟过,拿到cookie后进行后续操作。 今天就讲讲京东这个滑块验证码,神坑,之前的轨迹方程全部不可用,需要自己慢慢调试,找到最佳参数,最大化模拟人为操作才能过,目前我过的几率为80%左右...

2018-10-31 15:31:45

阅读数 4258

评论数 13

网络爬虫-爬取一卡通企业数据保存CVS

最近被各种encode,decode折磨得死去活来的,保存到json,csv或者txt各种乱码,实在了令人抓狂,有些明明是正确输出在pycharm上的,但是保存的时候就乱码了,今天就记录一下采坑过程。 以一卡通世界官网为例(保存至CSV): 以上便是需要保存的字段了。 代码如下: import...

2018-10-24 15:51:01

阅读数 147

评论数 0

网络爬虫-绕过debugger反爬(Paused in debugger)

最近发现很多网站出现了前端反调试debugger来反爬,防止数据被抓取,实际上是很简单的原理,其实也就是js搞的鬼,看来作为一名合格的爬虫工程师,在js的道路上也会越走越远–!废话不多说,看图→ Paused in debugger, 是不是看着很熟悉,接下来就是如何solve它。 首先我们需要...

2018-10-15 17:10:32

阅读数 1441

评论数 10

网络爬虫-淘宝登陆+爬取卖家信息

最近帮助一个小伙伴做了一个入职测试题,需求是登陆指定淘宝账号后爬取卖出的商品详情(订单号,订单时间,单价,总价,买家名称,买家地址等),然后进入https://guimi.taobao.com 进行举报操作。。。 虽然我也没搞懂这一套花里胡哨的是啥操作 但是既然答应了别人帮忙做 就好事做到底–! ...

2018-10-11 14:47:09

阅读数 4182

评论数 25

网络爬虫-神器fiddler抓取app数据

才接触爬虫的时候,我们通常使用的是浏览器的开发者工具-F12里的NetWork对网页进行抓包,但是这有一个缺点,就是如果网页加载了很多乱七八糟的东西,比如广告啊,各种各样的js之类的时候,NewWork就显得有点吃力了,我们就需要使用更强大的工具来进行抓包,我个人比较喜欢使用Fiddler,毕竟免...

2018-09-30 15:37:36

阅读数 2245

评论数 1

网络爬虫-模拟手机浏览器抓取数据

有些网站的数据在PC端很复杂,参数加密很严重,但是移动APP端的就没那么多加密,所以在遇到有些瓶颈的情况下,可以考虑从网页端转到移动端去抓包,爬取数据。这里有两种方法: 一. 使用模拟器下载APP 如果该网站有APP的话,推荐使用逍遥安卓模拟器,可以设置代理,使用fiddler进行抓包。 ...

2018-09-15 15:39:20

阅读数 1730

评论数 2

网络爬虫-pyqt5绕过反爬服务

当遇到使用selenium被网站识别为robot的时候,首先考虑的是换chromedriver,geckodriver,iedriver等,如果都还行不通,那么可以尝试修改chromedriver源码: stackoverflow传送门 如果都行不通 那么请尝试使用pyqt5 ...

2018-08-29 16:03:38

阅读数 2284

评论数 1

网络爬虫-liunx环境下部署selenium+chromedriver

由于一些万恶的网站需要加载js才能抓取数据,我们只能使用selenium去抓取,我们知道selenium如何在windows上跑,只需要将正确对应版本的chromedriver放在Python路径下或者配置PATH环境变量即可。 但是在linux环境下配置selenium+chrome需要配置的...

2018-08-24 11:36:30

阅读数 1271

评论数 6

网络爬虫-distil networks反爬虫服务

抓过大量数据的童鞋应该遇见过万恶的distil networks。 划重点,该公司的反爬服务是真的“牛逼”! 验证码是这样的 –> 一个是旋转图片,一个是播报语音,想想都难受,误伤率以及体验感都会很差,但是既然买了这个...

2018-08-22 18:24:42

阅读数 801

评论数 0

网络爬虫-抓取酷航机票信息

今天抓取的是一家廉价航空公司的机票信息,该网站采用了收费的反爬虫服务,有兴趣的童鞋可以了解一下: distil networks 当我抓该网站的post接口时,发现几个比较棘手的问题: 一. 不带cookie访问该网站的任意页面会被识别为机器人 二. cookie具有时效...

2018-08-14 21:44:21

阅读数 975

评论数 1

提示
确定要删除当前文章?
取消 删除
关闭
关闭