scrapy时遇到的一些坑

1、关于pipelines:
本想入库(Mongodb),但在setting中设置好了,程序运行时始终不能进入pipline,又没有错误,焦头烂额,在网上找了好多解决办法,都是说setting中要启用,及pipline中要记得return item, spider中要yield item,但我已做过这些,还是不能。时间着急,就直接在命令行下scrapy runspider ** .py -o .csv生成了csv格式的文件。
后就重新建立了爬虫项目,还是原来的爬虫代码,只不过setting中多余的设置就全不保留了,只留下了mongodb和pipeline的一些基本设置,然后,everything is good!!(本来是对反爬虫做的设置后来才发现真的是画蛇添足,但还是不知道究竟是什么原因引起的)。
2、关于spider 代码:
新手,所以有些规则不懂。
但在使用response.xpath()时,如果不确定你写的对不对,那就在scrapy shell中检验一下(shell真是个好东西)!(cmd命令窗口下:scrapy shell 网址)
还有一个讲真,真的是无语。加了一个start_request(),奇迹出现了,请求都进不去!!于是,放弃了start_request(),加了一个start_url=[’
*’], 可以了,一切正常。。。。(不知道什么原因)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值