概要:面向小白的、基于UIBOT和apowermirror的轻量级app爬虫开发实例,看完可以自力爬一些app数据,方便日常决策。包含环境搭建讲解。少量内容仅适用安卓手机,ios部分有人想看我就更。
适用人群:想用爬虫但什么都不会,懒
阅读时间:15分钟。
小白开发时长:5小时以内。
提示:请慎用爬虫,仅爬取非个人、非隐私、非竞争对手数据并且不得商业使用,注意控制请求数据的频率,避免对服务器造成压力。具体法律风险请参考:法说数据 | “爬”数据有哪些法律风险?
爬虫有什么用?一切不平等都是资源不对称,资源不对称的核心是信息不对称。大到买房,小到去个迪士尼乐园,到处都有信息不对称造成的不平等。只有不知道爬虫有什么用的人,没有爬虫造福不了的人。就以上海迪士尼为例,讲讲用uibot开发app爬虫。
用uibot爬虫收集了迪士尼度假区app上的排队时间,做成图表。直接放成果:
可以看到,开园时各大项目的排队时间已经飙升到累计400分钟,然后有小回落,可能是第一批游客结束了第一个项目,正在前往第二个项目的路上。9:30到10:50排队时间飞涨,10点50达到最高峰,然后慢慢下降,12点20达到低谷。下午又慢慢爬升,15点50达到高峰。然后越接近焰火表演时间越短。
所以正确的游玩策略是:
- 入园一边飞奔到排队时间最长的项目,一边领快速通行券(最好领10点半或者下午的)。
- 玩完第一个项目大概九点半,不要停下来!立刻排下一个大项目。10点半到12点这段如果有快速通行券就去玩,没有就趁大家都在排队赶紧拍拍拍,吃饭,到12点20开始排下一个大项目。
- 留一个大项目到焰火表演前压线玩(假设你没有提前2小时去城堡前占座的打算),其他大项目下午正常排,15-16点建议休息一阵。
- 当然你也必须认清现实,在暑假里想一天玩遍所有大项目,排队时间400分钟是需要的。要不要买快速通行券得好好考虑~
以上就是小爬虫的汇报,恭喜你在数万游客中获得了不平等信息优势。不过这是暑期的情况,不是全年通用噢。
然后把小爬虫解刨了——代码模块如下(集成了很多非必须功能,比如天气记录、抓取频率控制、定时启动、日期记录等,方便我做课题用机器学习预测未来排队时间。大致看看就好,核心部分后面会讲):
每个模块5~30行代码,算上我一边自学一边升级代码的时间,这个程序完工大概用了10个小时。使用的工具是uibot,uibot可以模拟人的鼠标键盘操作,为直观获取数据提供了很大方便。看起来模块很多,但如果只需要一天的数据来做排队策略,那就非常简单了。下文是从安装到开发的详细过程。
多嘴一句,对大多数人来说,常规app