【spider】爬虫学习路线-精通Scrapy网络爬虫

博客已经搬家到“捕获完成”:

https://www.v2python.com

 

随着大数据时代的到来,人们对数据资源的需求越来越多,而爬虫是一种很好的自动采集数据的手段。

那么,如何才能精通Python网络爬虫呢?学习Python网络爬虫的路线应该如何进行呢?韦玮老师在此为大家具体进行介绍。

1、选择一款合适的编程语言

事实上,Python、PHP、JAVA等常见的语言都可以用于编写网络爬虫,你首先需要选择一款合适的编程语言,这些编程语言各有优势,可以根据习惯进行选择。在此笔者推荐使用Python进行爬虫项目的编写,其优点是:简洁、掌握难度低。

2、掌握Python的一些基础爬虫模块

当然,在进行这一步之前,你应当先掌握Python的一些简单语法基础,然后才可以使用Python语言进行爬虫项目的开发。

在掌握了Python的语法基础之后,你需要重点掌握一个Python的关于爬虫开发的基础模块。这些模块有很多可以供你选择,比如urllib、requests等等,只需要精通一个基础模块即可,不必要都精通,因为都是大同小异的,在此推荐的是掌握urllib,当然你可以根据你的习惯进行选择。

3、深入掌握一款合适的表达式

学会了如何爬取网页内容之后,你还需要学会进行信息的提取。事实上,信息的提取你可以通过表达式进行实现,同样,有很多表达式可以供你选择使用,常见的有正则表达式、XPath表达式、BeautifulSoup等,这些表达式你没有必要都精通,同样,精通1-2个,其他的掌握即可,在此建议精通掌握正则表达式以及XPath表达式,其他的了解掌握即可。正则表达式可以处理的数据的范围比较大,简言之,就是能力比较强,XPath只能处理XML格式的数据,有些形式的数据不能处理,但XPath处理数据会比较快。

4、深入掌握抓包分析技术

事实上,很多网站都会做一些反爬措施,即不想让你爬到他的数据。最常见的反爬手段就是对数据进行隐藏处理,这个时候,你就无法直接爬取相关的数据了。作为爬虫方,如果需要在这种情况下获取数据,那么你需要对相应的数据进行抓包分析,然后再根据分析结果进行处理。一般推荐掌握的抓包分析工具是Fiddler,当然你也可以用其他的抓包分析工具,没有特别的要求。

5、精通一款爬虫框架

事实上,当你学习到这一步的时候,你已经入门了。

这个时候,你可能需要深入掌握一款爬虫框架,因为采用框架开发爬虫项目,效率会更加高,并且项目也会更加完善。

同样,你可以有很多爬虫框架进行选择,比如Scrapy、pySpider等等,一样的,你没必要每一种框架都精通,只需要精通一种框架即可,其他框架都是大同小异的,当你深入精通一款框架的时候,其他的框架了解一下事实上你便能轻松使用,在此推荐掌握Scrapy框架,当然你可以根据习惯进行选择。

6、掌握常见的反爬策略与反爬处理策略

反爬,是相对于网站方来说的,对方不想给你爬他站点的数据,所以进行了一些限制,这就是反爬。

反爬处理,是相对于爬虫方来说的,在对方进行了反爬策略之后,你还想爬相应的数据,就需要有相应的攻克手段,这个时候,就需要进行反爬处理。

事实上,反爬以及反爬处理都有一些基本的套路,万变不离其宗,这些后面作者会具体提到,感兴趣的可以关注。

常见的反爬策略主要有:

IP限制

UA限制

Cookie限制

资源随机化存储

动态加载技术

……

对应的反爬处理手段主要有:

IP代理池技术

用户代理池技术

Cookie保存与处理

自动触发技术

抓包分析技术+自动触发技术

……

这些大家在此先有一个基本的思路印象即可,后面都会具体通过实战案例去介绍。

7、掌握PhantomJS、Selenium等工具的使用

有一些站点,通过常规的爬虫很难去进行爬取,这个时候,你需要借助一些工具模块进行,比如PhantomJS、Selenium等,所以,你还需要掌握PhantomJS、Selenium等工具的常规使用方法。

8、掌握分布式爬虫技术与数据去重技术

如果你已经学习或者研究到到了这里,那么恭喜你,相信现在你爬任何网站都已经不是问题了,反爬对你来说也只是一道形同虚设的墙而已了。

但是,如果要爬取的资源非常非常多,靠一个单机爬虫去跑,仍然无法达到你的目的,因为太慢了。

所以,这个时候,你还应当掌握一种技术,就是分布式爬虫技术,分布式爬虫的架构手段有很多,你可以依据真实的服务器集群进行,也可以依据虚拟化的多台服务器进行,你可以采用urllib+redis分布式架构手段,也可以采用Scrapy+redis架构手段,都没关系,关键是,你可以将爬虫任务部署到多台服务器中就OK。

至于数据去重技术,简单来说,目的就是要去除重复数据,如果数据量小,直接采用数据库的数据约束进行实现,如果数据量很大,建议采用布隆过滤器实现数据去重即可,布隆过滤器的实现在Python中也是不难的。

以上是如果你想精通Python网络爬虫的学习研究路线,按照这些步骤学习下去,可以让你的爬虫技术得到非常大的提升。

至于有些朋友问到,使用Windows系统还是Linux系统,其实,没关系的,一般建议学习的时候使用Windows系统进行就行,比较考虑到大部分朋友对该系统比较数据,但是在实际运行爬虫任务的时候,把爬虫部署到Linux系统中运行,这样效率比较高。由于Python的可移植性非常好,所以你在不同的平台中运行一个爬虫,代码基本上不用进行什么修改,只需要学会部署到Linux中即可。所以,这也是为什么说使用Windows系统还是Linux系统进行学习都没多大影响的原因之一。

本篇文章主要是为那些想学习Python网络爬虫,但是又不知道从何学起,怎么学下去的朋友而写的。希望通过本篇文章,可以让你对Python网络爬虫的研究路线有一个清晰的了解,这样,本篇文章的目的就达到了,加油!

 

 

 

如何学习Python?

Python上手很容易, 基本有其他语言编程经验的人可以在1周内学会Python最基本的内容.
它们包括:
1.常用内置类型(int, float, bool, bytes, str, list, dict, set)的使用.
2.分支if-else 循环while 迭代for的语法.
3.def定义函数, 调用函数.
你再花1周学习些:
1.类
2.异常
此时, 有些人就在简历中得意的自称"会"Python了.
但是学到如此程度, 在实际编程中会经常遇到挫折, 主要源自理解不够深入, 仅仅Python语法和API层面体验了一下.
随意列举一些新手普遍存在的问题:
1.不了解Python对象模型, 变量名, 对象概念含混.
2.不了解可变对象和不可变对象, 尤其是int.
3.不了解切片意味着拷贝, 在循环中大量使用, 影响效率.
4.不了解切片是浅拷贝还是深拷贝.
5.遇到bytes和str(2.7中的str和unicode)就头晕.
6.经常在需要使用is的场景使用==.
7.不了解def是运行时执行语句, 并且是赋值语句.
8.类属性和实例属性混淆.
9.不了解在函数中修改可变对象参数会对调用者产生影响, 导致莫名其妙错误.
10.企图在函数中修改全局变量, 没有使用global, 而创建了本地变量.
11.以可变对象做函数默认参数.

拥有某项技能的程序员的价值, 可以用学习技能所需的成本来衡量.你用2周学习达到的这种程度, 对于企业就是没有价值的, 因为老板可以让一个公司里任意其他语言的程序员经过2-3周的学习就能达到你现在的程度.Python的简洁易用, 快速开发对项目有价值, 但这不是你的价值, 是Python的价值.所以提高自身价值, 也就是不让别人轻易追上你. 以极低的成本替代你.

你只能快跑, 进一步学习, Python语言层面还需要学习下面一些内容:
1.使用生成器, 迭代器
2.函数式编程, 匿名函数lambda, map, reduce, filter
3.列表解析, 字典解析, 集合解析, 生成器解析
4.运算符重载(setattr, getattr, getitem, gt, lt...)
5.property, 描述符(get, set, delete)
6.上下文管理器(enter, exit)
7.深入理解面向对象

上述都是语言层面的,属于内功.实战中当然也需要一些更为具体的外功, 训练外功可以从熟悉Python标准库开始, 这些模块能进入标准库说明他们足够好并且在实际项目中足够常用, 列举一些极为常用的:
1.正则表达式 re
2.迭代工具 itertools
3.常用数据结构 collections, heapq, array
4.处理二进制数据 struct
5.随机 random
6.系统调用 os
7.Python对象序列化 pickle
8.多进程多线程处理 threading, multiprocessing
9.网络 socket, urllib
10.系统参数 sys

无论练习内功或外功,结合实战都是最好的训练方式和检验手段, 可以根据个人情况以及喜好选择, 如:
1.使用django, flask开发网站.
2.开发网络爬虫或使用Python爬虫框架(如scrapy).
3.写一些自动化运维脚本, 定时读取某软件log, 出现异常自动发邮件.
4.使用selenium对网站进行测试.
5.使用Python开发树莓派小车(电机,传感器驱动).
6.使用Python开发Vim插件, 如在vim中做一个音乐播放器.
7.使用Python做算法题, 如leetcode.
8.opencv做图像识别.
9.使用numpy和pandas做数据处理.
10.使用机器学习库sklearn, tensorflow做应用.
11.使用PyQt编写桌面应用.
12.使用scipy, matplotlib做科学计算.
13.使用Python做渗透测试.
......

个人建议选择小项目进行实训, 有些新手上来就想定一个大目标, 做的时候很挫折, 往往半途而废.把小东西先实现, 然后优化. 接下来添加新功能, 慢慢迭代把小东西做大. 这样在做的时候,每实现一个小功能你都会有成就感, 激励继续前进.

可能经过比较漫长的一段时间, 你成为了一个熟练的Python应用程序员, 还有些高级话题可以继续学习:
1.装饰器
2.元类
这些高级话题在开发框架中经常使用, 它们可以帮你创建更灵活的代码.

通常自称一个月光速学了会Python的人基本都不是天才, 只是浮躁, 目标定的比较低而已.
不要太过急功近利, 慢慢玩, 精进.
如果你觉着编程有趣, 成长也就不再痛苦, 祝学习愉快.


作者:
链接:https://www.imooc.com/article/15051
来源:慕课网
本文原创发布于慕课网 ,转载请注明出处,谢谢合作

  • 5
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值