自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 网络爬虫-某水利建设市场平台(滑块验证码破解)

刚过完端午节! 节后回归一波,发一波之前的库存~ 直接进入主题 目标站 水利建设市场监管平台 触发验证码 --> 首页 --> 从业人员 --> 随便点个人名的链接,如图 可以看到就是很普通的滑块验证码,我们今天不用selenium的方式去解决了,换个思路,用js的方式去解决,...

2020-06-28 18:19:07 85 0

原创 网络爬虫-今日头条__ac_signature参数逆向(第二弹)

今天要讲的是今日头条web版的__ac_signature参数逆向 这次应该是最近刚更新的一个反爬,受朋友委托帮忙查看,跟上次的解决方式差不多,算法方面基本一致。先放上一篇文章的链接 网络爬虫-今日头条_signature参数逆向 具体如何找到加密算法以及断点调试等可以参考上一篇文章,我这边主要讲...

2020-05-11 18:45:31 1770 8

原创 网络爬虫-拼多多anti_content参数逆向分析

失踪人口回归深夜第二弹 拼夕夕的anti_content参数逆向分析(0ao开头) 直接上链接 --> 拼多多 首先进行基操,随便搜索个关键词并抓包 可以发现第一次搜索的时候并没有什么加密,真正的anti_content参数是在我们拉动下拉框(等同于翻页)操作加载数据触发接口时才有的。...

2020-03-17 01:00:35 1239 2

原创 网络爬虫-今日头条_signature参数逆向(第一弹)

失踪人口回归ing 今天要讲的是今日头条web版的_signature参数逆向 直接上链接 --> 今日头条 首先随便点开一个版本,这里点的是娱乐,抓包看看结果。 可以很清晰地看到首页html源码里面并没有上图中的关键字"古巨基",可以初步判断是异步加载的数据,所以接...

2020-03-17 00:00:59 4794 22

原创 网络爬虫-抓取全国高校名单(分区域)

参考链接: 从人人网获取全国中学信息(省市县) 主要代码为参考+改进上面博客的原创,在人人网的select弹框form里面抓取出全国高校名单. 主要代码块如下 def getProvinceData(): content = open("./cityArray.js"...

2019-11-11 15:17:40 307 0

原创 网络爬虫-cloudflare五秒等待验证逆向破解

Cloudflare是国外的一家安全防护公司,最近在很多网站上也看到了他的身影,比较明显的特征就是让你等待5秒钟以验证你是否是真实的浏览器。 以 https://www.biovision.com/ 为例 另一个明显的特征就是它的cookie里面会包含__cfduid, cf_clearance...

2019-09-25 15:23:30 3016 9

原创 网络爬虫-计算型验证码破解

爬虫中最常见的反爬手段之一就是验证码,而我们平常所遇见的验证码最多的便是数英验证码,数英验证码可以有效地收集数据集并进行训练,达到靠谱的识别率,而另一个很常见的就是计算型验证码了,如下图示: 这个验证码,咋一看,感觉上是十分简单的,因为简单的OCR识别就能很精准地识别它,但是我们该怎么做呢,先看...

2019-09-19 17:27:54 275 0

原创 网络爬虫-爱给音效素材网js逆向思路

失踪人口回归~~~ 今天的主角是:爱给音效素材网 不得不说这是一个表面人畜无害,实则暗藏玄机的网站,js加密说不上复杂,但是能让你抓狂~ 我们以其中一个子页面为例:页面传送门 接下来进行抓包分析 可以发现在进行下载操作的时候,一共发出了两个请求,根据我们以往的经验,不难看出,第一个请求的请求...

2019-09-04 15:43:09 577 5

原创 网络爬虫-cnzz网站统计(umuuid参数加密破解)

总体来说算是比较easy的js加密 由于涉及到部分隐私 就简单说下该参数的加密思路 以马蜂窝为例 该网站使用的是CNZZ统计流量 首先抓包看参数,如图 可以比较清晰地看到 cnzz的统计是发起的这个get请求 然后看下这些参数 我们不确定的参数有 id / cnzz_eid / umuuid ...

2019-07-09 18:27:11 11827 0

原创 网络爬虫--记一次有趣的侦察型反爬手段(ebay)

起因: 偶然在群里看到一位小老弟的求助 说是某电商网站对手机号进行了反爬,我寻思之前也写过58电话解密的 就助(mian)人(wei)为(qi)乐(nan)地看一下吧 ebay网站地址 进去抓包一看 几百个请求 唰唰唰的 由于被误导了一波 以为是什么js或者异步加载的数据 于是去原网站点击...

2019-06-21 16:47:21 11484 1

原创 网络爬虫-上传爬虫文件至阿里云OSS(以视频/图片为例)

OSS 的作用 这个OSS 存储能够帮助我们完成很多新的需求 , 如果你是土豪你可以把它当成一个网盘来使用,如果你是个后端开发者那么恭喜你,你就相当于有了一台静态资源服务器 ! 你可以把图片以及静态页面放到这里 ! 通过OSS获取需要的资源,从而减少服务器的IO操作~,不止如此,一些视频类的网站还...

2019-05-29 17:43:30 11221 0

原创 网络爬虫-一键转换爬虫请求头headers(Fillder/各大浏览器适用)

程序员都是懒惰的~ 这个是真理! 于是有了这个一键转换请求头的神器,平时厌烦了打单双引号,逗号的童鞋可以偷懒了,咱做爬虫的,也挺不容易的~ 直接贴代码 -->(原理很简单,目前测试了fiddler和浏览器的请求头) import json def get_header(headers):...

2019-05-06 15:55:52 15278 1

原创 网络爬虫-爬取有效机构查询网(CNAS)全量数据

目标网站 --> 有效机构查询网 需求如下: 咋一看 不太难 全是静态html 且数据也都是规则的 这时候xpath工程师的作用就体现了! 于是乎先开始抓接口 查询接口 这里出现了个验证码 而且是会后端验证的(有那种只是前端验证不给后端验证的忽悠人的验证码) 还好是普通的...

2019-04-26 11:42:44 21977 2

原创 网络爬虫-58同城·招聘联系电话js解密

一个简单的cryptojs加密的网站,58同城·招聘的隐藏电话号码 如下图示 注意,58招聘查看联系方式是需要登录授权的,所以前面的步骤一一省略,仅分析抓包请求,如何通过requests拿到我们想要的电话号码 接下来进行抓包分析,我们点击电话沟通,看看是加载了哪些请求 不难发现 这个...

2019-03-29 12:09:16 12061 7

原创 网络爬虫-icgoo电子元件网js加密破解分析

失踪人口回归~~~ 今天是帮一个小老弟看的一个比较简单的js加密网站,考虑到一部分童鞋对js加密这块还不太熟悉,我就简单地把思路和流程捋一捋。 首先打开需要拿数据的页面 → 电子元件网AD620 哗啦啦的就加载出来了 ,然鹅右键查看源码, 一看,果然没有页面上的数据,确诊动态js加载...

2019-03-14 17:52:09 12953 4

原创 网络爬虫-2018个人总结

概述 忙里偷闲,趁着元旦休息的这几天,在2018年的最后一天,总结一下自己在这一年遇到过的多多少少的坑以及一些心得体会吧。 粗略算下来,从事爬虫工程师这个岗位也算是一年有余了吧,从一个毛发旺盛的小伙,到一个即将面对秃头危机的油腻大叔,也只花了一年的时间~ ...

2018-12-31 18:29:50 11428 1

原创 网络爬虫-抓取1000W百度文库doc文档

今天抓取的是百度文库doc文档,但是要求确实随机的1000万份文档并存为txt文本,下载百度文库的开源项目已经有了,那么去哪里找到1000万个百度文库doc文档的url呢,并且在短时间内下载下来。 因为爬虫是一个IO密集型业务,所以使用协程效率则最高,第一时间想到了gevent。 首先分析百度...

2018-12-10 17:46:09 11343 1

原创 网络爬虫-使用requests上传multipart/form-data格式文件

由于以前没有使用requests上传过文件,所以今天在使用它上传文件的时候遇见了一个坑,接下来我们就来一层一层解析这个坑 以科大讯飞官网上传音频文件为例 首先是喜闻乐见地打开Fiddler进行抓包操作,流程也很简单,很快就抓下来了上传文件的这个包,见下图 然后就进入了懵逼模式,content-t...

2018-11-19 18:22:33 13750 2

原创 网络爬虫-爬取指定城市空气质量检测数据

爬取指定城市空气质量检测数据 网站链接 → https://www.aqistudy.cn/historydata/ 以月数据为例,见下图: 然后我们通过console调试可以发现 这个网页在items里面已经将数据打包好了,如下图所示 没毛病,数据全都对得上,接下来的思路就是利用...

2018-11-15 11:15:44 12806 2

原创 网络爬虫-破解京东滑块验证码

最近一直在研究滑块验证码这一块,接连破解了极验2.0,极验3.0以及淘宝滑块,当然了,只是使用selenium模拟过,拿到cookie后进行后续操作。 今天就讲讲京东这个滑块验证码,神坑,之前的轨迹方程全部不可用,需要自己慢慢调试,找到最佳参数,最大化模拟人为操作才能过,目前我过的几率为80%左右...

2018-10-31 15:31:45 18471 37

原创 网络爬虫-爬取一卡通企业数据保存CVS

最近被各种encode,decode折磨得死去活来的,保存到json,csv或者txt各种乱码,实在了令人抓狂,有些明明是正确输出在pycharm上的,但是保存的时候就乱码了,今天就记录一下采坑过程。 以一卡通世界官网为例(保存至CSV): 以上便是需要保存的字段了。 代码如下: import...

2018-10-24 15:51:01 10958 0

原创 网络爬虫-绕过debugger反爬(Paused in debugger)

最近发现很多网站出现了前端反调试debugger来反爬,防止数据被抓取,实际上是很简单的原理,其实也就是js搞的鬼,看来作为一名合格的爬虫工程师,在js的道路上也会越走越远–!废话不多说,看图→ Paused in debugger, 是不是看着很熟悉,接下来就是如何solve它。 首先我们需要...

2018-10-15 17:10:32 18990 20

原创 网络爬虫-淘宝登陆+爬取卖家信息

最近帮助一个小伙伴做了一个入职测试题,需求是登陆指定淘宝账号后爬取卖出的商品详情(订单号,订单时间,单价,总价,买家名称,买家地址等),然后进入https://guimi.taobao.com 进行举报操作。。。 虽然我也没搞懂这一套花里胡哨的是啥操作 但是既然答应了别人帮忙做 就好事做到底–! ...

2018-10-11 14:47:09 15021 44

原创 网络爬虫-神器fiddler抓取app数据

才接触爬虫的时候,我们通常使用的是浏览器的开发者工具-F12里的NetWork对网页进行抓包,但是这有一个缺点,就是如果网页加载了很多乱七八糟的东西,比如广告啊,各种各样的js之类的时候,NewWork就显得有点吃力了,我们就需要使用更强大的工具来进行抓包,我个人比较喜欢使用Fiddler,毕竟免...

2018-09-30 15:37:36 14977 1

原创 网络爬虫-模拟手机浏览器抓取数据

有些网站的数据在PC端很复杂,参数加密很严重,但是移动APP端的就没那么多加密,所以在遇到有些瓶颈的情况下,可以考虑从网页端转到移动端去抓包,爬取数据。这里有两种方法: 一. 使用模拟器下载APP 如果该网站有APP的话,推荐使用逍遥安卓模拟器,可以设置代理,使用fiddler进行抓包。 ...

2018-09-15 15:39:20 11936 7

原创 网络爬虫-pyqt5绕过反爬服务

当遇到使用selenium被网站识别为robot的时候,首先考虑的是换chromedriver,geckodriver,iedriver等,如果都还行不通,那么可以尝试修改chromedriver源码: stackoverflow传送门 如果都行不通 那么请尝试使用pyqt5 ...

2018-08-29 16:03:38 12038 1

原创 网络爬虫-liunx环境下部署selenium+chromedriver

由于一些万恶的网站需要加载js才能抓取数据,我们只能使用selenium去抓取,我们知道selenium如何在windows上跑,只需要将正确对应版本的chromedriver放在Python路径下或者配置PATH环境变量即可。 但是在linux环境下配置selenium+chrome需要配置的...

2018-08-24 11:36:30 13278 7

原创 网络爬虫-distil networks反爬虫服务

抓过大量数据的童鞋应该遇见过万恶的distil networks。 划重点,该公司的反爬服务是真的“牛逼”! 验证码是这样的 –> 一个是旋转图片,一个是播报语音,想想都难受,误伤率以及体验感都会很差,但是既然买了这个服务的公...

2018-08-22 18:24:42 12068 1

原创 网络爬虫-抓取酷航机票信息

今天抓取的是一家廉价航空公司的机票信息,该网站采用了收费的反爬虫服务,有兴趣的童鞋可以了解一下: distil networks 当我抓该网站的post接口时,发现几个比较棘手的问题: 一. 不带cookie访问该网站的任意页面会被识别为机器人 二. cookie具有时效...

2018-08-14 21:44:21 12363 1

原创 网络爬虫-爬取飞常准航班信息

今天爬取的是一个航空公司网站的航班信息–飞常准 我们需要遍历抓取每一个航班里的所有信息 这里需要注意 有些列出来的航班可能不存在信息 需要进行一次判断 另外 访问过快会导致被该网站封号,解封会出现验证码,可以自己搭建免费ip代理池或使用收费代理 代码如下: import ...

2018-08-09 22:04:09 17482 8

原创 网络爬虫-爬取十万张表情包

最近和同事和朋友斗图斗得厉害,心想哪里来的这么多表情包,于是乎想着去表情包网站爬一波图片下来,便有了今天这边文章。话不多说,上图上代码! 将这3540页表情包全部抓取下来,存到我的本地磁盘。 spider.py # -*- coding: utf-8 -*- import scr...

2018-08-04 23:48:12 12077 3

原创 Python面试题

吐槽一下,互联网行业应届生确实好难找工作,顺便整理一下最近遇到过的一些面试题: 个人解答,如需专业解答请面向百度/谷歌。 爬虫 1 response.text与response.content的区别 response.text是字符串(比如网页静态的html),response.con...

2018-07-31 21:53:22 11589 1

原创 网络爬虫-爬取顶点小说网指定小说

需求是女朋友下发的(凌晨12:30): 帮我下载一部小说–医后倾仙(1979章-最新章节) 打开电脑–打开百度–输入医后倾仙–打开我见到的第一个小说网站(顶点小说网)–敲代码 import requests import re import time from lxml import ...

2018-07-30 01:20:13 11054 0

原创 Scrapy设置随机USER_AGENT

设置随机User-Agent 既然要用到随机User-Agent,那么我们就要手动的为我们的爬虫准备一批可用的User-Agent,因此首先在settings.py文件中添加如下的信息。 MY_USER_AGENT = [ "Mozilla/4.0 (compat...

2018-07-28 14:55:27 12677 0

原创 常见USER_AGENT字符串集合

常见浏览器User-Agent字符串: Opera Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1...

2018-07-28 14:51:51 12875 0

原创 Scrapy环境搭建

Win7系统下搭建Scrapy环境: 1.进入cmd创建虚拟环境: python -m venv venv 2.进入虚拟环境,安装scrapy的依赖包文件: 以我电脑F盘创建的venv为例 → 1.cd venv 2.cd Scripts 3.activte/deactivate...

2018-06-30 17:31:12 12010 0

原创 网络爬虫-格言网全站数据(scrapy)

人生就应该多读一点鸡汤→传送门 : 格言网 好了废话不多说,直接上干活,今天是如何利用scrapy框架爬取格言网的全站数据并存储至本地.如何安装配置scrapy环境请看我的另一篇文章: 首先是创建一个scrapy框架的整体结构,这里就不做详细解释了. 这样一个整体的框架就构建出来了...

2018-06-20 19:29:14 12123 0

原创 网络爬虫-今日头条-街拍

爬取今日头条里的街拍数据 1.保存标题及图片URL到MongoDB 2.保存图片到本地 通过分析 今日头条街拍 的网页URL,可以发现其内容也是通过Ajax异步加载的,于是分析其API接口: https://www.toutiao.com/search_content/?offse...

2018-06-14 19:28:40 12403 0

原创 网络爬虫-微博主页内容(Ajax接口)

爬取通过异步加载的微博主页内容: [https://m.weibo.cn/u/5610887288](https://m.weibo.cn/u/5610887288)分析网页的内容,可以发现微博主页的加载后续是通过Ajax完成的,于是打开开发者工具(F12) -> network -...

2018-06-13 20:08:49 12195 0

原创 网络爬虫-猫眼电影top100

最近爱上了写爬虫,接下来的一个月将更新多个爬虫的博文,同时也是记录自己在爬虫道路上的磕磕绊绊,学习和成长的历程。今天的爬虫是爬取猫眼电影top100,实现分页爬取,然后保存在本地txt文本上。url : http://maoyan.com/board/4?offset=1,通过分析和试验,发现猫眼...

2018-06-10 21:29:43 12097 0

提示
确定要删除当前文章?
取消 删除