scrapy时遇到的一些坑

最新推荐文章于 2021-09-19 09:49:26 发布

小黄豆的太阳花

最新推荐文章于 2021-09-19 09:49:26 发布

阅读量508

点赞数

本文链接：https://blog.csdn.net/baidu_31067827/article/details/83539188

版权

1、关于pipelines:
本想入库（Mongodb），但在setting中设置好了，程序运行时始终不能进入pipline，又没有错误，焦头烂额，在网上找了好多解决办法，都是说setting中要启用，及pipline中要记得return item, spider中要yield item，但我已做过这些，还是不能。时间着急，就直接在命令行下scrapy runspider ** .py -o .csv生成了csv格式的文件。
后就重新建立了爬虫项目，还是原来的爬虫代码，只不过setting中多余的设置就全不保留了，只留下了mongodb和pipeline的一些基本设置，然后，everything is good！！（本来是对反爬虫做的设置后来才发现真的是画蛇添足，但还是不知道究竟是什么原因引起的）。
2、关于spider 代码：
新手，所以有些规则不懂。
但在使用response.xpath()时，如果不确定你写的对不对，那就在scrapy shell中检验一下（shell真是个好东西）！（cmd命令窗口下：scrapy shell 网址）
还有一个讲真，真的是无语。加了一个start_request()，奇迹出现了，请求都进不去！！于是，放弃了start_request()，加了一个start_url=[’*’], 可以了,一切正常。。。。（不知道什么原因）