零基础如何学爬虫技术?

我自学 Python 爬虫,到这个月出书《Python 网络爬虫:从入门到实践》(机械工业出版社出版),一共也就过去两年。这两年自学的过程,走过了无数的坑,多亏了各位大神无私地回答我的问题,我想我是有资格帮你解决零基础学爬虫技术的。

作为零基础的你,我想你可能是想解决工作中的一个实际问题,或者仅仅是很想学习一下爬虫的技术,多一技之长。其实我准备开始学 Python 爬虫的时候也是一样,老板派了任务,暂时没有人会爬虫,我只有自学顶硬上。因此,我可以用思维图给你理清楚,你应该干什么。

我零基础但我想学网络爬虫:

路径1:我不想写代码,那已经有很多方法,Excel/八爪鱼,用这些工具的好处是你可以很快上手,但是只能爬一些简单的网站,一旦网站出现限制,这些方法就是个玩具。因此,想弄点数据玩玩,玩这些玩具就好。

路径2:我可以学写代码,但是会不会很难啊?我以我的经验告诉你,找一个好的老师比自我胡思乱想,自我设限好得多。写代码这个事不难学,这也是为什么市面上有那么多代码速成的教学。这也是为什么我有些同学1年转专业进 Google 的事情发生。

这里给你描画一下你的学习之路:

  1. 学会 Python 的基本代码: 假如你没有任何编程基础,时间可能花1-2周,每天3小时。假设你有编程基础(VBA 也算吧),1小时。
  2. 理解爬虫原理:5分钟。为什么这么重要?我自认为学一个东西就像建大楼,先弄清楚大框架,然后再从地基学起。很多时候我们的学习是,还没弄懂大框架,就直接看网上的碎片化的教学,或者是跟着网上教学一章一章学,很容易学了芝麻丢了西瓜。我的自学就在这上面走了很多弯路。请参见:【爬虫二】爬虫的框架和基本议题
  3. 应用爬虫原理做一个简单爬虫:30分钟。请参见:5分钟入门网络爬虫 - 原来可以这么简单易懂
  4. 先吃透获取网页:就是给一个网址发个请求,那么该网址会返回整个网页的数据。类似:你在浏览器键入网址,回车,然后你就看到了网站的整个页面。
  5. 再吃透解析网页:就是从整个网页的数据中提取你想要的数据。类似:你在浏览器中看到网站的整个页面,但是你想找到产品的价格,价格就是你想要的数据。
  6. 再学会储存数据:存储很简单,就是把数据存下来。

学会这些之后,你可以出去和别人说,我会 Python 爬虫,我想也没有人质疑你了。那么学完这一套下来,你的时间成本是多少呢?如果你有编程基础的话,1周吧。

所以,你是想当爬虫做个玩具玩玩,还是掌握一门实战利器。我觉得你可以自己衡量一下。

其实我已经把我这几年的心得,遇到的坑都浓缩在这本书里,希望大家的学习之路上少走点坑。

想系统学习 Python,对上面六步感兴趣的可以读:如何有系统地学习Python爬虫?

贴个链接,希望大家支持
京东链接《Python网络爬虫从入门到实践》(唐松,陈智铨)【摘要 书评 试读】- 京东图书

当当链接《Python网络爬虫从入门到实践》(唐松 陈智铨)【简介书评在线阅读】 - 当当图书

  • 11
    点赞
  • 51
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值