高级篇
学会用框架,能站在巨人肩膀上的人,能力往往都不会太差。
这里我们学习的是PySpider
PySpider环境搭建 (Windows)
pip install pyspider
安装pyspider (前面python 已经安装了2.7)
下载phantomjs-2.1.1-windows
加入环境变量,动态加载js会用到
我们使用mysql存储
如果不需要存储到mysql, 这步可以直接跳过
安装mysql,Navicat Premium(db管理工具)
运行 cmd -> pyspider all
到这里环境就搭建完成了
Pyspider的基础
先了解下pyspider的功能:
Pyspider入门实践 - 定时爬取下载量
下面我们从豌豆荚,百度手机助手,应用宝爬出某个应用的下载量。
code说明:
- init方法是初始化方法,里面放了一些url数据,时间等。
- on_start是入口,相当于main方法
- @every(minutes=24 * 60) # 每天执行一次
- @every(minutes=1) # 每min执行一次, 这个一般调试时用,方便实时查看情况
- 页面解析的三个方法: index_wdjpage, index_baidupage,index_yingyongbaopage
- @config(age=60) # 有效期1min 一分钟后才会过期。真正抓的频率是 on_start的@ every + 这里的age。即2分钟才会run一次index_