pyspider常见问题与解决方案

1.HTTPError: HTTP 599: SSL certificate problem: self signed certificate in certi…

这个问题, 我们采用的是忽略证书, 为crawl 方法添加参数 validate_cert = False, 即可

2.css 选择器

pyspider 可以匹配相应的字符串, 支持css 选择器功能, 但是需要注意的是 在chrome 中 对tbody 的渲染支持不好, 因而css 选择器参数中 请不要使用 tbody 标签进行筛选

3.pyspider 数据更新问题
先用pyspider采集并保存A网页数据,然后A网页页面数据更新了,pyspider可以检测到A网页已更新,并重新采集A网页,同时更新之前所保存的A网页的数据吗?
如果不重新抓一遍网页 A,不可能知道 A 已经变了,如果重新抓了,那就等于已经「重新采集」了,重新采集了,当然可以更新之前保存的数据了。

所以你需要定时重新抓一遍。除非有一个网页 B,告诉你网页 A 变了。

4.经常碰到找不到上一次执行项目的数据的时候
由于自己了windows的环境变量,所以自己习惯性的喜欢打开CMD后就直接敲命令行执行 pyspider语句
虽然每次都执行,但是自己却没找到数据。
后来才发现,pyspider命令行执行的时候,数据库data文件会自动在当前目录生成,通过sqlite链接数据库,发现pyspider把脚本数据存在projectDB,但是一直没有找到resultDB数据在哪里

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值