这是自己写的第一个使用Pyspider完成数据抓取,小有收获,最近这几天一直都在折腾这个Pyspider,算是有点入门吧。能感觉出国人写的框架,有点熟悉的味道,觉得使用习惯有点接近吧,个人感觉,不喜勿喷。有问题还是得多看官方文档,对于刚刚入门的同学来说,官方文档能帮你解决很多问题。有问题时先去官方文档上找,找不到再去Google,这样应该会好一点。
下面是小米众筹产品的实例,亲测没问题,可以直接拷贝到http://demo.pyspider.org/新建一个项目进行测试。
使用Python3.X的同学可能需要修改一下代码,由于我之前搭建的环境是2.7的,后面有时间了再来进行迁移,我个人还是比较倾向于使用3.X版本的,毕竟3.X是趋势吧。官方的测试服务器的Python版本也是2.7的。好了,闲话说了很多,下面直接上代码:
#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2017-07-14 10:36:36
# Project: xiaomi
from pyspider.libs.base_handler import *
import urllib
import time
import json
class Handler(BaseHandler):
#配置通用的请求属性
crawl_config = {
'headers' : {