Python爬虫实习之scrapy运行后未爬取直接结束

一开始看到这种情况也soil一连懵逼,什么鬼,难道是我的IP不行被网站看上了,想想不可能啊,毕竟是第一次爬取,于是开始了我一点一点的纠错过程,一开始以为是我的工程项目的文件设置路径错了,后来发现并不是,于是又想是不是程序的启动运行脚本程序错了,改了半天发现也不是,于是我无奈了。。。。可是,有时候灵感就是那么一瞬间,是不是网址写错了。事实证明却是是这样,这里说写错了,并不是那种直接把网址真的写错了,而是http和https的问题:

就是因为目标爬取网站采用https进行访问,我用了http,一开始之所以没注意到这一点是因为,用命令行创建scrapy工程项目时,采用scrapy startproject XXXXX,之后进入工程之后,用scrapy genspider -t crawl XXX  www.xxx.com命令创建爬虫程序文件,根据我们的提供的域名,工程默认的start_url = [http://www.xxx.com],并不是https,所以这一点需要注意! 

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值