1、关于pipelines:
本想入库(Mongodb),但在setting中设置好了,程序运行时始终不能进入pipline,又没有错误,焦头烂额,在网上找了好多解决办法,都是说setting中要启用,及pipline中要记得return item, spider中要yield item,但我已做过这些,还是不能。时间着急,就直接在命令行下scrapy runspider ** .py -o .csv生成了csv格式的文件。
后就重新建立了爬虫项目,还是原来的爬虫代码,只不过setting中多余的设置就全不保留了,只留下了mongodb和pipeline的一些基本设置,然后,everything is good!!(本来是对反爬虫做的设置后来才发现真的是画蛇添足,但还是不知道究竟是什么原因引起的)。
2、关于spider 代码:
新手,所以有些规则不懂。
但在使用response.xpath()时,如果不确定你写的对不对,那就在scrapy shell中检验一下(shell真是个好东西)!(cmd命令窗口下:scrapy shell 网址)
还有一个讲真,真的是无语。加了一个start_request(),奇迹出现了,请求都进不去!!于是,放弃了start_request(),加了一个start_url=[’*’], 可以了,一切正常。。。。(不知道什么原因)
scrapy时遇到的一些坑
最新推荐文章于 2021-09-19 09:49:26 发布