Python爬虫实习之scrapy运行后未爬取直接结束

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/m0_37338590/article/details/81136200

一开始看到这种情况也soil一连懵逼,什么鬼,难道是我的IP不行被网站看上了,想想不可能啊,毕竟是第一次爬取,于是开始了我一点一点的纠错过程,一开始以为是我的工程项目的文件设置路径错了,后来发现并不是,于是又想是不是程序的启动运行脚本程序错了,改了半天发现也不是,于是我无奈了。。。。可是,有时候灵感就是那么一瞬间,是不是网址写错了。事实证明却是是这样,这里说写错了,并不是那种直接把网址真的写错了,而是http和https的问题:

就是因为目标爬取网站采用https进行访问,我用了http,一开始之所以没注意到这一点是因为,用命令行创建scrapy工程项目时,采用scrapy startproject XXXXX,之后进入工程之后,用scrapy genspider -t crawl XXX  www.xxx.com命令创建爬虫程序文件,根据我们的提供的域名,工程默认的start_url = [http://www.xxx.com],并不是https,所以这一点需要注意! 

展开阅读全文

没有更多推荐了,返回首页