Scrapy框架安装遇到的问题

配置环境是我觉得最能坑我们同学的地方,因为总能遇到百度都解决不了的问题,总要拖一两天突然自己才能解决...

先说说我的电脑环境配置.64位win7电脑,装的是32位Python2.7。(Python已经安装好,在cmd环境下输入Python能交互)

安装过程可以参考很多前辈写的帖子。例如 http://blog.csdn.net/qy20115549/article/details/52528896 (sober_qianyang前辈的)

我主要说说我踩过的坑。

第一个:环境变量一定加配置(把C:\Python27\Scripts\添加到path里),没配置的话导致出现(“不是内部或外部命令,也不是可运行的程序”)

第二个:twisted这个模块是要下载的,但是直接使用pip install 的话,会自动帮你下载最新版,但最新版是不允许scrapy安装的,所以安装twisted时最好、一定要安装13.1.0的版本(参考http://blog.csdn.net/death_include/article/details/68362188,我也是受这个启发)

第三个:终于可以用pip install scrapy也安装完了,但是使用最简单的scrapy startproject xxx 的时候提示不是内部和外部命令,这个也是第一个环境没配置好。

第四个:终于能创建一个初始化的scrapy框架了,怎么运行呢?要注意scrapy crawl XXX 这条指令也是有目录限制的。如果你想看看在当前目录可以运行哪个爬虫,你可以输入scrapy list看看。要是想在IDE里面运行,可在设定一个新的main.py为你的开始程序,然后在main.py里面用os模块,再插入dos命令到语句里,最后运行

第五个:终于会运行了,但是一大堆红色的反馈代码(我是用pycharm),仔细翻翻,找到会有[scrapy.core.scraper]DEBUG:Scraped from<403...,但是状态码是403怎么办?

其实还要配置你框架里面的setting.py,403状态码代表网站不允许访问,这里要说一下scrapy和urllib、socket访问不一样(scrapy很容易封?),我在setting里面把这个改成True(ROBOTSTXT_OBEY = True),就可以的,但是可能有些还是不行,这个我就不知道怎么解决了..


写得可能有点快,有错的希望大神们指出,谢谢~


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值