爬虫学习之路 - 高级篇

高级篇

学会用框架,能站在巨人肩膀上的人,能力往往都不会太差。

这里我们学习的是PySpider

PySpider环境搭建 (Windows)

  1. pip install pyspider

    安装pyspider (前面python 已经安装了2.7)

  2. 下载phantomjs-2.1.1-windows

    加入环境变量,动态加载js会用到

  3. 我们使用mysql存储

    如果不需要存储到mysql, 这步可以直接跳过

    安装mysql,Navicat Premium(db管理工具)

  4. 运行 cmd -> pyspider all

到这里环境就搭建完成了

Pyspider的基础

先了解下pyspider的功能:

pyspider中文网

pyspider官网

Pyspider入门实践 - 定时爬取下载量

下面我们从豌豆荚,百度手机助手,应用宝爬出某个应用的下载量。

code说明:

  • init方法是初始化方法,里面放了一些url数据,时间等。
  • on_start是入口,相当于main方法
    • @every(minutes=24 * 60) # 每天执行一次
    • @every(minutes=1) # 每min执行一次, 这个一般调试时用,方便实时查看情况
  • 页面解析的三个方法: index_wdjpage, index_baidupage,index_yingyongbaopage
    • @config(age=60) # 有效期1min 一分钟后才会过期。真正抓的频率是 on_start的@ every + 这里的age。即2分钟才会run一次index_
  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值