1.配置环境
https://www.anaconda.com/download/
我使用的是 anaconda3,根据自己需求,自主选择
下载好后,安装,然后配置环境变量
然后安装 scrapy
conda install scrapy
安装成功输入 scrapy 查看
python 开发工具使用的 Pycharm
下载地址:http://www.jetbrains.com/pycharm/download/#section=windows
下载好了就安装,一路Next…
然后就是破解=。=
Windows系统hosts文件路径为:c:\windows\system32\drivers\etc
Mac和Ubantu(Linux)系统hosts文件路径为:/etc
我用的是 windows 所以直说windows的
0.0.0.0 account.jetbrains.com
然后就-> http://idea.lanyus.com/ 自己获取注册码
然后就over了,亲测 木有问题=。=
步入正题:使用scrapy框架 爬数据!
目标-> 豆瓣
数据库->mysql
#首先cd 到你的目录!初始化你的项目=。=
scrapy startproject douban
scrapy genspider douban_spider movie.douban.com
执行完目录如下=。=
spiders 目录开始你的爬虫=。=
items.py -> 实体、对象、dto .......
middlewares.py -> 中间件、比如说代理扩展
pipelines.py -> 操作数据库的,清洗数据...
settings.py -> 配置文件
scrapy.cfg->项目的配置文件
代码=。=
https://gitee.com/benbenyezi/python-scrapy-spider/tree/master/