python爬虫表格table_python使用scrapy爬表格,爬虫中级

上一篇讲道了爬虫入门,这一篇介绍怎么使用爬虫框架来爬数据。框架用的是scrapy https://doc.scrapy.org/en/latest/。在开始动手之前,还是建议大家用pyenv和virtualenv隔离一下环境。当然如果觉得麻烦的话可以略过。

先把环境切到3.5.3,然后再切换包环境。我系统是没有安装scrapy的,所以要进行下面这两步。安装了scrapy的忽略它。看不明白我在说什么的也可以忽略它。

pyenv local 3.5.3 pyenv activate venv353

万事俱备了,可以开始了。写爬虫入门了以后,最困难的应该是调试。在这个阶段,需要学习http协议,要学习html,要学习CSS,还要学会各种字符编码知识,相信我,不会各种编码的话,迟早会一头栽进坑里好几天爬不上来,学习曲线一下变得很陡峭。还要会处理各种异常,至于框架本身的学习,倒不是太难的事情了。因为网上一搜一大把入门的博客,跟着做总能成功的。说了这么多,无非是在讲写爬虫要进阶需要的知识面。如果都不具备,那还是先看看这方面的书吧。

为了方便码农入门和调试,scrapy提供了一个叫shell的强大模式。用起来也很简单:

scrapy shell url

scrapy会自动打开url,并且将返回放在一个叫response的对象里,在scrapy shell中可以直接访问。在shell中可以直接对它进行操作,方便码农调试各种正则表达式,还有DOM操作的表达式。

98cfd4570496

scrapy

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值