写在前面的话
对于一个python新手,要使用scrapy进行爬虫,简直是抓狂,不过一点一点的啃下来,慢慢的发现也挺有意思的,通过好几天的白天去公司实习,晚上熬夜到凌晨写爬虫,现在将自己的第一次爬虫经历记录下来,以备以后再学习,同时也希望可以帮助到广大热爱爬虫、热爱大数据的人;
就像很多博主一样,这里先大概讲解一下scrapy的入门教程。这里提供一个scrapy的官方中文参考文档:http://scrapy-chs.readthedocs.org/zh_CN/latest/intro/tutorial.html
接下来,我需要写的内容包括以下几个部分(程序员都知道,一切从0开始):
0、安装scrapy
1、创建一个scrapy项目
2、定义你需要保存的Item
3、编写爬取网站的spider
0、安装scrapy
这里说的安装,主要是指windows,因为博主的电脑是windows10;1、下载Python2.7,可以在官网下载,这里提供一个http://download.csdn.net/detail/buptzhengchaojie/9522958
2、安装python2.7,然后修改环境变量,博主这里python安装在C:\Python27,所以需要在path里增加C:\Python27\;C:\Python27\Scripts\;
3、查看版本:python --version
4、安装pywin32,可以从官网下载。
5、安装pywin32之后,然后打开命令行,确认pip是否被正确安装,输入pip --version,其实python2.7.9之后,默认是安装了pip;如果没有安装pip,可以百度。博主是使用2.7.10,所以默认安装pip,你可以选择更新pip版本。