APP爬虫环境搭建:Appium+Mitmproxy+夜神模拟器+AndroidSDK一条龙安装教程

目录

背景

需要安装的软件

软件的作用介绍&个人使用测评

爬虫的大致逻辑

安装&配置教程


背景

接下来介绍的是全自动app爬虫,适用于找不到数据接口规律、需要爬取大量数据的爬虫。在部署好全自动爬虫只需要打开这堆软件,运行代码,然后再睡一觉等数据爬好了。

但并不是所有的爬虫都适用于这样的,如果可以找到数据接口的规律,就可以直接在python里面像写网页端的普通抓包爬虫就行,如果只需要少量数据,就可以连接真机,手控屏幕滑动,这两种情况appium、安卓模拟器、sdk都显得duck不必了。

需要安装的软件

  • jdk
  • python
  • AndroidSDK
  • appium
  • 安卓模拟器
  • mitmproxy

软件的作用介绍&个人使用测评

AndroidSDK+安卓模拟器是提供一个“手机”。这里有非常多的替代方式,比如直接下载AndroidStudio,可以在里面安装SDK和AVD(安卓模拟器);安卓模拟器也不止是夜神模拟器,还有雷电模拟器之类的;甚至你可以不用安卓的模拟器,下载苹果的也可。但是根据我个人的使用,还是强烈安利安装AndroidSDK和夜神模拟器的,夜神模拟器安装起来非常方便+快速,用起来也非常流畅。AndroidStudio里面的模拟器不知道是什么版本的安卓,感觉很奇怪,我不太会用。

appium配合Python可以实现用代码控制手机,这一步主要就是解放你的双手,不然就要自己抱着手机一顿狂刷,但是手动刷也有好处,就是会比程序控制稳定很多。

mitmproxy是一个代理,介于客户端和服务器端,说白了就是你的手机和部署app的服务器中间的枢纽,代理的作用就是介于二者中间,去抓包获取数据。charles、fiddler、mitmproxy都是app抓包工具,但是!!!mitmproxy有一个非常厉害的功能,就是可以直接将抓包获得的数据用Python代码处理,所以我强烈安利,但是mitmproxy(右图)也有一个不好的地方,就是当你在筛选这些数据包的时候,这些数据包是按照时间先后排序的,非常乱七八糟的,找数据包太费神了,charles(左图)就会把他们根据url分类,大大提高筛选数据包的效率,所以我两个都安装上了。

        

爬虫的大致逻辑

AndroidSDK和安卓模拟器是提供一个“手机”,以爬取抖音数据为例,通过在这个虚拟手机上安装抖音,然后用Python代码控制对手机的操作模拟人刷视频,这样就会和抖音的服务器交互产生非常多的数据,然后通过代理(mitmproxy)拦截数据抓包,并将抓到的数据用Python进行解析和处理,这里呢,为了解放双手,一顿狂刷视频的事情就交给Python和appium,可以写程序控制手机操作(点击,上刷,下刷...)。最后,获取数据,处理数据,一气呵成。

安装&配置教程

这里我就不赘述安装过程了,整理了一些安装教程,都是我安装时亲测有效的。

jdk:JDK下载安装及环境变量配置的图文教程(详解)_konggu_youlan的博客-CSDN博客_jdk配置教程

python:Anaconda详细安装及使用教程(带图文)_代码帮的博客-CSDN博客_anaconda

mitmproxy:[Python3网络爬虫开发实战] 1.7.2-mitmproxy的安装 | 静觅

androidSDK:Android SDK下载安装及配置教程 - 知乎

appium:Appium-desktop连接安卓模拟器实例 - 简书

夜神模拟器:直接去官网下载,然后直接安装即可。

  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值