爬虫相关
文章平均质量分 76
爬虫相关的技术总结
泰勒今天不想展开
这个作者很懒,什么都没留下…
展开
-
利用charles抓包
charles是一款http抓包软件,和fiddler极为相似,所以大家就会问,为啥不用fiddler呢,因为mac没有fiddler。而且charles还是付费版本。所以我们这里从安装破解到抓包成功一步一步讲清楚。下载并安装我们进入charles官网进行下载:https://www.charlesproxy.com/latest-release/download.do ,我是mac,所以选择其中的macOS下载dmg包之后我们正常的安装,安装完成打开,大概就是这样的模样破解我们打开激活码生成界原创 2022-04-23 11:31:21 · 3626 阅读 · 0 评论 -
爬虫进阶路程5——无头浏览器的坑
本来以为经历前面四道坑,算是走到了反爬的顶端,没想到不到三个月再次倒下了,因为之前的爬虫程序突然被反爬了,怎都拿不到数据,一开始以为自己的代理ip被封了,但是我一个一个试,换了好多个代理ip,没有一个有用的,难道天下所有的ip都被封了嘛。一开始我是这么认为的。一个偶然,就是我用本地的浏览器来爬数据,是可以的,于是我给本地浏览器也加了一个代理ip,发现还是可以的,而同样的代理ip在linux就不行了。 那原因基本就定位到了,是因为window上我们使用的是正常的浏览器,而linux上我们使用的原创 2021-02-25 18:05:04 · 682 阅读 · 0 评论 -
爬虫进阶路程1——开篇
终于弄好了,长舒一口气,经过几天的奋斗,终于把整个小东西克服了。既然是开篇,先介绍一下事情的原委:几周前自己通过fiddler分析某股票App上的数据接口,并根据自己的一些设想,利用这些接口爬取了少量数据进行了验证,发现效果良好。正当自己信心满满准备扩大数据集最更大范围内的验证时,发现后院失火了:之前整理出来的数据接口都拿不到数据了,注意是拿不到数据,而不是调不通。我将链接放到浏览器中打开,发现一点问题都没有,但是直接通过接口请求,返回的确实几条简单的js引用和一句window.location.h原创 2020-11-20 17:41:49 · 303 阅读 · 0 评论 -
爬虫进阶路程4——绕过ip反爬
概述 如果走到了这里,算是到了爬虫的终极,因为这说明别人的服务器除了通过并发速度来识别出你是爬虫已经没有其他方式阻止你了,到了这里你也没有太多花里胡哨的招式,就一招:ip代理池。原理也很简单,既然别人通过识别你单台设备的频率来判断你是一个爬虫,那你就让你的爬虫脚本从许多个ip去爬取数据,从而降低单台服务器的频率。所谓ip代理池,理解起来其实就是类似一个正向代理池子,有很多个正向代理,然后你通过这些代理去请求目标url,就能拿到你要的数据了。 我在开篇中讲到,自己通过阿里云去爬取数据,发现根本原创 2020-12-21 16:50:31 · 714 阅读 · 0 评论 -
爬虫进阶路程3——绕开selenium反爬
在《爬虫进阶路程1——开篇》中说道过,自己本以为使用了selenium就万事大吉了,结果发现使用selenium之后还是死了的,似乎别人的代码能够识别出自己使用了selenium,查资料下来确实如此,反爬手段其实也简单,就是去获取你当前浏览器的一些基本信息,如果包含了selenium打开浏览器的一些特征,就认为你是selenium,而不是正常的浏览器。知道他反爬的原理,其实就知道怎么解决了,无非两种:在他进行特征判断之前进行篡改,如果你是客户端判断,就要修改源代码,如果是服务端判断,就要修改请求原创 2020-12-15 14:09:33 · 1203 阅读 · 2 评论 -
爬虫进阶路程2——centos安装各个版本chrome
接《爬虫进阶路程1——开篇》,里面讲到使用selenium进行实现高级别的爬虫,能够绕过那些绞尽脑汁是js复杂化的反爬方式,而selenium是需要配合浏览器来搭配使用的,这里就来讲一下如何在linux安装无头浏览器,window上怎么装就不讲了,直接百度很容易就装上了,但是如果正儿八经做爬虫的肯定不会止步于在自己PC上来爬数据,最终一定是走linux服务器的。安装 这里主要通过yum本地安装rpm包来完成的chrome浏览器安装的,chrome安装包各版本下载地址如下:https://w原创 2020-12-10 19:48:07 · 880 阅读 · 0 评论 -
fiddler——抓苹果手机的包
fiddler用于抓http/https包的,如果你是其他协议的,fiddler无法抓到。整理一下fiddler如何抓苹果手机里app的包。fiddler的配置修改配置fiddler可以拦截https请求(毕竟现在基本都是https协议)[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ikorBKEY-1603780447090)(…\picture_back_up\fiddler配置解密https.webp)]配置fiddler可以接受远程连接[外链图片转原创 2020-10-27 14:34:30 · 1513 阅读 · 1 评论