超牛逼！Python爬虫学习的完整路线推荐_爬虫三部曲

2401_84139697

于 2024-05-02 14:08:21 发布

阅读量2k

点赞数 35

分类专栏：程序员文章标签： python 爬虫学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84139697/article/details/138391417

版权

程序员专栏收录该内容

146 篇文章 0 订阅

订阅专栏

·商机发现：招投标情报发现、客户资料发掘、企业客户发现等

进行爬虫学习，首先要懂得是网页，那些我们肉眼可见的光鲜亮丽的网页是由HTML、css、javascript等网页源码所支撑起来的****。

这些源码被浏览器所识别转换成我们看到的网页，这些源码里面必定存在着很多规律, 我们的爬虫就能按照这样的规律来爬取需要的信息**。**

无规矩不成方圆，Robots协议就是爬虫中的规矩，它告诉爬虫和搜索引擎哪些页面可以抓取，哪些不可以抓取。

通常是一个叫作robots.txt的文本文件，放在网站的根目录下。

轻量级爬虫

**“获取数据——解析数据——存储数据”**是爬虫的三部曲，大部分爬虫都是按这样的流程来进行，这其实也是模拟了我们使用浏览器获取网页信息的过程。

1**、获取数据**

爬虫第一步操作就是模拟浏览器向服务器发送请求，基于python，你不需要了解从数据的实现，HTTP、TCP、IP的网络传输结构，一直到服务器响应和应达的原理，因为python提供了功能齐全的类库来帮我们完成这些请求。

Python自带的标准库urllib2使用的较多，它是python内置的HTTP请求库，如果你只进行基本的爬虫网页抓取，那么urllib2足够用。

Requests的slogen是“Requests is the only Non-GMO HTTP library for Python, safe for humanconsumption”，相对urllib2，requests使用起来确实简洁很多，并且自带json解析器****。

如果你需要爬取异步加载的动态网站，可以学习浏览器抓包分析真实请求或者学习Selenium来实现自动化。

对于爬虫来说，在能够爬取到数据地前提下当然是越快越好，显然传统地同步代码不能满足我们对速度地需求。

（ps：据国外数据统计：正常情况下我们请求同一个页面 100次的话，最少也得花费 30秒，但使用异步请求同一个页面 100次的话，只需要要 3秒左右。）

aiohttp是你值得拥有的一个库**，**aiohttp的异步操作借助于async/await关键字的写法变得更加简洁，架构更加清晰。使用异步请求库进行数据抓取时，会大大提高效率。

你可以根据自己的需求选择合适的请求库，但建议先从python自带的urllib开始，当然，你可以在学习时尝试所有的方式，以便更了解这些库的使用。

推荐请求库资源:

urllib2文档 https://dwz.cn/8hEGdsqD

requests文档 http://t.cn/8Fq1aXr

selenium文档 https://dwz.cn/DlL9j9hf

aiohttp文档 https://dwz.cn/hvndbuB4

2、解析数据

爬虫爬取的是爬取页面指定的部分数据值，而不是整个页面的数据，这时往往需要先进行数据的解析再进行存储。

从web上采集回来的数据的数据类型有很多种,主要有HTML、 javascript、JSON、XML等格式。

解析库的使用等价于在HTML中查找需要的信息时时使用正则，能够更加快捷地定位到具体的元素获取相应的信息。

Css选择器是一种快速定位元素的方法。

Pyqurrey使用lxml解析器进行快速在xml和html文档上操作，它提供了和jQuery类似的语法来解析HTML文档，支持CSS选择器，使用非常方便。

Beautiful Soup是借助网页的结构和属性等特性来解析网页的工具，能自动转换编码。支持Python标准库中的HTML解析器,还支持一些第三方的解析器。

Xpath最初是用来搜寻XML文档的，但是它同样适用于 HTML 文档的搜索。它提供了超过 100 个内建的函数。

这些函数用于字符串值、数值、日期和时间比较、节点和 QName 处理、序列处理、逻辑值等等，并且XQuery和XPointer都构建于XPath基础上。

Re正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

个人认为前端基础比较扎实的，用pyquery是最方便的，beautifulsoup也不错，re速度比较快，但是写正则比较麻烦。

当然了，既然用python，肯定还是自己用着方便最好。

推荐解析器资源：

pyquery https://dwz.cn/1EwUKsEG

Beautifulsoup http://t.im/ddfv

xpath教程 http://t.im/ddg2

re文档 http://t.im/ddg6

3**、数据存储**

当爬回来的数据量较小时，你可以使用文档的形式来储存，支持TXT、json、csv等格式。

但当数据量变大，文档的储存方式就行不通了，所以掌握一种数据库是必须的。

Mysql 作为关系型数据库的代表，拥有较为成熟的体系，成熟度很高，可以很好地去存储一些数据，但在在海量数据处理的时候效率会显著变慢，已然满足不了某些大数据的处理要求。

MongoDB已经流行了很长一段时间，相对于MySQL ，MongoDB可以方便你去存储一些非结构化的数据，比如各种评论的文本，图片的链接等等。

你也可以利用PyMongo，更方便地在Python中操作MongoDB。

因为这里要用到的数据库知识其实非常简单，主要是数据如何入库、如何进行提取，在需要的时候再学习就行。

**Redis是一个不折不扣的内存数据库，**Redis 支持的数据结构丰富，包括hash、set、list等。

数据全部存在内存，访问速度快，可以存储大量的数据，一般应用于分布式爬虫的数据存储当中。

推荐数据库资源：

mysql文档 https://dev.mysql.com/doc/

mongoDB文档 https://docs.mongodb.com/

redis文****档 https://redis.io/documentation/

工程化爬虫

掌握前面的技术你就可以实现轻量级的爬虫，一般量级的数据和代码基本没有问题。

但是在面对复杂情况的时候表现不尽人意，此时，强大的爬虫框架就非常有用了。

首先是出身名门的Apache顶级项目Nutch，它提供了我们运行自己的搜索引擎所需的全部工具。

支持分布式抓取，并有Hadoop支持，可以进行多机分布抓取，存储和索引。

另外很吸引人的一点在于，它提供了一种插件框架，使得其对各种网页内容的解析、各种数据的采集、查询、集群、过滤等功能能够方便的进行扩展。

其次是GitHub上众人star的scrapy，scary是一个功能非常强大的爬虫框架。

它不仅能便捷地构建request，还有强大的 selector 能够方便地解析 response，然而它最让人惊喜的还是它超高的性能，让你可以将爬虫工程化、模块化。

学会scrapy，你可以自己去搭建一些爬虫框架，你就基本具备爬虫工程师的思维了。

最后Pyspider作为人气飙升的国内大神开发的框架，满足了绝大多数Python爬虫的需求 —— 定向抓取，结构化化解析。

它能在浏览器界面上进行脚本的编写，功能的调度和爬取结果的实时查看，后端使用常用的数据库进行爬取结果的存储等。

其功能强大到更像一个产品而不是一个框架。

这是三个最有代表性的爬虫框架，它们都有远超别人的有点，比如Nutch天生的搜索引擎解决方案、Pyspider产品级的WebUI、Scrapy最灵活的定制化爬取。

建议先从最接近爬虫本质的框架scary学起，再去接触人性化的Pyspider，为搜索引擎而生的Nutch。

推荐爬虫框架资源：

Nutch文档 http://nutch.apache.org/

scary文档 ht__tps://scrapy.org/

pyspider文档 http://t.im/ddgj

反爬及应对措施

爬虫像一只虫子，密密麻麻地爬行到每一个角落获取数据，虫子或许无害，但总是不受欢迎的。

因为爬虫技术造成的大量IP访问网站侵占带宽资源、以及用户隐私和知识产权等危害，很多互联网企业都会花大力气进行“反爬虫”。

你的爬虫会遭遇比如被网站封IP、比如各种奇怪的验证码、userAgent访问限制、各种动态加载等等。

常见的反爬虫措施有：

·通过Headers反爬虫

如果你也是看准了Python，想自学Python，在这里为大家准备了丰厚的免费学习大礼包，带大家一起学习，给大家剖析Python兼职、就业行情前景的这些事儿。

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

二、学习软件

工欲善其必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

三、全套PDF电子书

书籍的好处就在于权威和体系健全，刚开始学习的时候你可以只看视频或者听某个人讲课，但等你学完之后，你觉得你掌握了，这时候建议还是得去看一下书籍，看权威技术书籍也是每个程序员必经之路。

四、入门学习视频

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

四、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

五、面试资料

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

成为一个Python程序员专家或许需要花费数年时间，但是打下坚实的基础只要几周就可以，如果你按照我提供的学习路线以及资料有意识地去实践，你就有很大可能成功！
最后祝你好运！！！

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里无偿获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

关注

35
点赞
踩
46

收藏

觉得还不错? 一键收藏
0
评论
超牛逼！Python爬虫学习的完整路线推荐_爬虫三部曲

商机发现：招投标情报发现、客户资料发掘、企业客户发现等进行爬虫学习，首先要懂得是，那些我们肉眼可见的光鲜亮丽的网页是由这些源码被浏览器所识别转换成我们看到的网页，这些源码里面必定存在着很多**。**无规矩不成方圆，就是爬虫中的规矩，它告诉爬虫和搜索引擎哪些页面可以抓取，哪些不可以抓取。通常是一个叫作robots.txt的文本文件，放在网站的根目录下。**“获取数据——解析数据——存储数据”**是爬虫的三部曲，大部分爬虫都是按这样的流程来进行，这其实也是模拟了我们使用浏览器获取网页信息的过程。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。