Python爬虫超详细讲解（零基础入门，老年人都看的懂）_python需要什么程度才可以爬取资源

本文链接：https://blog.csdn.net/m0_60635176/article/details/138491581

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

r=requests.get(url).text

#解析网页并且定位短评
s=etree.HTML®
file=s.xpath(‘//*[@id=“comments”]/ul/li/div[2]/p/text()’)

#打印抓取的信息
print(file)


![在这里插入图片描述](https://img-blog.csdnimg.cn/9d33c209cab14657926f4c0d747e66a5.png)  
 爬取的该页面所有的短评信息


当然如果你需要爬取异步加载的网站，可以学习浏览器抓包分析真实请求或者学习Selenium来实现自动化，这样，知乎、时光网、猫途鹰这些动态的网站也基本没问题了。


这个过程中你还需要了解一些Python的基础知识：


文件读写操作：用来读取参数、保存爬下来的内容


list(列表)、dict(字典)：用来序列化爬取的数据


条件判断(if/else)：解决爬虫中的判断是否执行


循环和迭代(for ……while)：用来循环爬虫步骤


### 3.了解非结构化数据的存储


爬回来的数据可以直接用文档形式存在本地，也可以存入数据库中。  
 开始数据量不大的时候，你可以直接通过 Python 的语法或 pandas 的方法将数据存为text、csv这样的文件。还是延续上面的例子：


用Python的基础语言实现存储：

with open(‘pinglun.text’,‘w’,encoding=‘utf-8’) as f:
for i in file:
print(i)
f.write(i)


用pandas的语言来存储：

#import pandas as pd
#df = pd.DataFrame(file)
#df.to_excel(‘pinglun.xlsx’)


这两段代码都可将爬下来的短评信息存储起来，把代码贴在爬取代码后面即可。  
 ![在这里插入图片描述](https://img-blog.csdnimg.cn/00fa2f8f7f46449d8ff43248123bcf03.png)  
 存储的该页的短评数据


当然你可能发现爬回来的数据并不是干净的，可能会有缺失、错误等等，你还需要对数据进行清洗，可以学习 pandas 包的基本用法来做数据的预处理，得到更干净的数据。以下知识点掌握就好：


	+ 缺失值处理：对缺失数据行进行删除或填充
	+ 重复值处理：重复值的判断与删除
	+ 空格和异常值处理：清楚不必要的空格和极端、异常数据
	+ 分组：数据划分、分别执行函数、数据重组### 4.掌握各种技巧，应对特殊网站的反爬措施


爬取一个页面的的数据是没问题了，但是我们通常是想爬取多个页面啊。  
 这个时候就要看看在翻页的时候url是如何变化了，还是以短评的页面为例，我们来看多个页面的url有什么不同：

https://book.douban.com/subject/1084336/comments/
https://book.douban.com/subject/1084336/comments/hot?p=2
https://book.douban.com/subject/1084336/comments/hot?p=3
https://book.douban.com/subject/1084336/comments/hot?p=4
……………………


通过前四个页面，我们就能够发现规律了，不同的页面，只是在最后标记了页面的序号。我们以爬取5个页面为例，写一个循环更新页面地址就好了。

for a in range(5):
url=“http://book.douban.com/subject/1084336/comments/hot?p={}”.format(a)


当然，爬虫过程中也会经历一些绝望啊，比如被网站封IP、比如各种奇怪的验证码、userAgent访问限制、各种动态加载等等。


遇到这些反爬虫的手段，当然还需要一些高级的技巧来应对，常规的比如访问频率控制、使用代理IP池、抓包、验证码的OCR处理等等。


比如我们经常发现有的网站翻页后url并不变化，这通常就是异步加载。我们用开发者工具取分析网页加载信息，通常能够得到意外的收获。  
 ![在这里插入图片描述](https://img-blog.csdnimg.cn/723013bcb6d848bbb0159e59834d58fd.png)  
 通过开发者工具分析加载的信息


比如很多时候如果我们发现网页不能通过代码访问，可以尝试加入userAgent 信息。  
 ![在这里插入图片描述](https://img-blog.csdnimg.cn/4d6268afc9964c7999f7515ac759d2ac.png)  
 浏览器中的userAgent信息  
 ![在这里插入图片描述](https://img-blog.csdnimg.cn/a07f2dbca8c441aa9d48b1cad8c2e00f.png)  
 在代码中加入userAgent信息


往往网站在高效开发和反爬虫之间会偏向前者，这也为爬虫提供了空间，掌握这些应对反爬虫的技巧，绝大部分的网站已经难不到你了。


### 5.学习爬虫框架，搭建工程化的爬虫


掌握前面的技术一般量级的数据和代码基本没有问题了，但是在遇到非常复杂的情况，可能仍然会力不从心，这个时候，强大的 scrapy 框架就非常有用了。


scrapy 是一个功能非常强大的爬虫框架，它不仅能便捷地构建request，还有强大的 selector 能够方便地解析 response，然而它最让人惊喜的还是它超高的性能，让你可以将爬虫工程化、模块化。  
 学会 scrapy，你可以自己去搭建一些爬虫框架，你就基本具备爬虫工程师的思维了。


### 6.学习数据库基础，应对大规模数据存储


爬回来的数据量小的时候，你可以用文档的形式来存储，一旦数据量大了，这就有点行不通了。所以掌握一种数据库是必须的，学习目前比较主流的 MongoDB 就OK。


MongoDB 可以方便你去存储一些非结构化的数据，比如各种评论的文本，图片的链接等等。你也可以利用PyMongo，更方便地在Python中操作MongoDB。  
 因为这里要用到的数据库知识其实非常简单，主要是数据如何入库、如何进行提取，在需要的时候再学习就行。


### 7.分布式爬虫，实现大规模并发采集


爬取基本数据已经不是问题了，你的瓶颈会集中到爬取海量数据的效率。这个时候，相信你会很自然地接触到一个很厉害的名字：分布式爬虫。


分布式这个东西，听起来非常吓人，但其实就是利用多线程的原理让多个爬虫同时工作，需要你掌握 Scrapy + MongoDB + Redis 这三种工具。


Scrapy 前面我们说过了，用于做基本的页面爬取，MongoDB 用于存储爬取的数据，Redis 则用来存储要爬取的网页队列，也就是任务队列。


所以不要被有些看起来很高深的东西吓到了。当你能够写分布式的爬虫的时候，那么你可以去尝试打造一些基本的爬虫架构了，实现一些更加自动化的数据获取。


你看，这一条学习路径下来，你已然可以成为老司机了，非常的顺畅。所以在一开始的时候，尽量不要系统地去啃一些东西，找一个实际的项目（开始可以从豆瓣、小猪这种简单的入手），直接开始就好。


因为爬虫这种技术，既不需要你系统地精通一门语言，也不需要多么高深的数据库技术，高效的姿势就是从实际的项目中去学习这些零散的知识点，你能保证每次学到的都是最需要的那部分。


当然唯一困难的是，刚开始没有经验的时候，在寻找资源、搜索解决问题的方法时总会遇到一些困难，因为往往在最开始，我们去描述清楚具体的问题都很难。如果有大神帮忙指出学习的路径和解答疑问，效率会高不少。


### 最后


**作为一个IT的过来人，我自己整理了一些python学习资料，都是别人分享给我的，希望对你们有帮助。**  
 **学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。**


**朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】**。  
 ![](https://img-blog.csdnimg.cn/0b4e12ce755a46d2a0d6502e8ed1a507.png#pic_center)


### 一、Python所有方向的学习路线


Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。  
 ![在这里插入图片描述](https://img-blog.csdnimg.cn/a6067e55c54b49078778d56ea0db7fe2.png)


### 二、Python必备开发工具


![在这里插入图片描述](https://img-blog.csdnimg.cn/e496e6652efd47f5bbe73ad2ee082d4a.png)


### 三、Python视频合集


观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。  
 ![在这里插入图片描述](https://img-blog.csdnimg.cn/c6ac9e53d20b448ab9f2837b7f173b94.png)


### 四、实战案例


光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。![在这里插入图片描述](https://img-blog.csdnimg.cn/7b7d7e133d984b85a09422c3ccfa7396.png)



做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。



别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。

我先来介绍一下这些东西怎么用，文末抱走。

* * *



**（1）Python所有方向的学习路线（新版）**

这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。



最近我才对这些路线做了一下新的更新，知识体系更全面了。



![在这里插入图片描述](https://img-blog.csdnimg.cn/8fc093dcfa1f476694c574db1242c05b.png)



**（2）Python学习视频**



包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门来说是没问题的，学完这些之后，你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。



![在这里插入图片描述](https://img-blog.csdnimg.cn/d66e3ad5592f4cdcb197de0dc0438ec5.png#pic_center)



**（3）100多个练手项目**

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了，只是里面的项目比较多，水平也是参差不齐，大家可以挑自己能做的项目去练练。



![在这里插入图片描述](https://img-blog.csdnimg.cn/f5aeb4050ab547cf90b1a028d1aacb1d.png#pic_center)



**（4）200多本电子书**  

  

这些年我也收藏了很多电子书，大概200多本，有时候带实体书不方便的话，我就会去打开电子书看看，书籍可不一定比视频教程差，尤其是权威的技术书籍。



基本上主流的和经典的都有，这里我就不放图了，版权问题，个人看看是没有问题的。



**（5）Python知识点汇总**

知识点汇总有点像学习路线，但与学习路线不同的点就在于，知识点汇总更为细致，里面包含了对具体知识点的简单说明，而我们的学习路线则更为抽象和简单，只是为了方便大家只是某个领域你应该学习哪些技术栈。



![在这里插入图片描述](https://img-blog.csdnimg.cn/c741a91b05a542ba9dc8abf2f2f4b1af.png)



**（6）其他资料**



还有其他的一些东西，比如说我自己出的Python入门图文类教程，没有电脑的时候用手机也可以学习知识，学会了理论之后再去敲代码实践验证，还有Python中文版的库资料、MySQL和HTML标签大全等等，这些都是可以送给粉丝们的东西。



![在这里插入图片描述](https://img-blog.csdnimg.cn/9fa77af248b84885a6ec779b2ead064d.png)

**这些都不是什么非常值钱的东西，但对于没有资源或者资源不是很好的学习者来说确实很不错，你要是用得到的话都可以直接抱走，关注过我的人都知道，这些都是可以拿到的。**




**网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**[需要这份系统化学习资料的朋友，可以戳这里获取](https://bbs.csdn.net/topics/618317507)**

**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**