配置环境是我觉得最能坑我们同学的地方,因为总能遇到百度都解决不了的问题,总要拖一两天突然自己才能解决...
先说说我的电脑环境配置.64位win7电脑,装的是32位Python2.7。(Python已经安装好,在cmd环境下输入Python能交互)
安装过程可以参考很多前辈写的帖子。例如 http://blog.csdn.net/qy20115549/article/details/52528896 (sober_qianyang前辈的)
我主要说说我踩过的坑。
第一个:环境变量一定加配置(把C:\Python27\Scripts\添加到path里),没配置的话导致出现(“不是内部或外部命令,也不是可运行的程序”)
第二个:twisted这个模块是要下载的,但是直接使用pip install 的话,会自动帮你下载最新版,但最新版是不允许scrapy安装的,所以安装twisted时最好、一定要安装13.1.0的版本(参考http://blog.csdn.net/death_include/article/details/68362188,我也是受这个启发)
第三个:终于可以用pip install scrapy也安装完了,但是使用最简单的scrapy startproject xxx 的时候提示不是内部和外部命令,这个也是第一个环境没配置好。
第四个:终于能创建一个初始化的scrapy框架了,怎么运行呢?要注意scrapy crawl XXX 这条指令也是有目录限制的。如果你想看看在当前目录可以运行哪个爬虫,你可以输入scrapy list看看。要是想在IDE里面运行,可在设定一个新的main.py为你的开始程序,然后在main.py里面用os模块,再插入dos命令到语句里,最后运行
第五个:终于会运行了,但是一大堆红色的反馈代码(我是用pycharm),仔细翻翻,找到会有[scrapy.core.scraper]DEBUG:Scraped from<403...,但是状态码是403怎么办?
其实还要配置你框架里面的setting.py,403状态码代表网站不允许访问,这里要说一下scrapy和urllib、socket访问不一样(scrapy很容易封?),我在setting里面把这个改成True(ROBOTSTXT_OBEY = True),就可以的,但是可能有些还是不行,这个我就不知道怎么解决了..
写得可能有点快,有错的希望大神们指出,谢谢~