对于python环境的不做介绍,网上有很多的教程,可以供大家参考,这里主要写一下,我自己最近学习遇到的一些流程和问题:
打开cmd: 1. 新建虚拟环境virtualenv+环境名称,主要是我们开发一个项目,不可能在源目录下进行开发,新建虚拟目录可以不污染源环境,可以切换到你需要新建的目录下再建,默认在python的安装目录下
2.进入虚拟环境 cd+环境名称
3.激活虚拟环境 Scripts\activate
4.在虚拟环境中安装基本的框架:pip install scrapy(必须先安装Twisted 用pip install + Twisted所在的位置(我们自己在网上找的twisted文件))
5.在虚拟环境中新建scrapy项目:scrapy startproject +名称
6.建立要抓取的网站(这里cmd会有提示的): cd+ 第5步建立的项目名称
scrapy genspider +自己设置的名称+网站的ip地址
7.抓取内容:scrapy crawl + 设置的名称(先安装win32:pip install pypiwin32)
8.然后打开pycharm中关闭代码setting中的遵循robots协议
9.在虚拟环境中安装mysql驱动:pip install mysqlclient
10. 在pycharm中调试不方便,可以使用scrapy shell + 爬虫名称来调试