怎样利用 python 学习爬虫？

黑马程序员官方

于 2023-03-22 16:40:43 发布

阅读量468

点赞数

文章标签： python 学习爬虫

本文链接：https://blog.csdn.net/itcast_cn/article/details/129713417

版权

本文介绍了Python爬虫的学习内容，包括Python基础、HTML抓取与提取、Scrapy框架、反爬虫策略、数据存储以及常用的工具和IDE。此外，还提到了搜索引擎的工作原理和聚焦爬虫技术，强调了学习Python爬虫需掌握的关键技能和知识点。

摘要由CSDN通过智能技术生成

一文搞懂Python—>爬虫需要学什么，附送课程、笔记。

关于Python爬虫，我们需要学：

1. Python基础语法学习（基础知识）
首先，你需要熟悉Python的基本语法，包括变量、数据类型、条件语句、循环、函数等。
2. 对HTML页面的内容抓取（数据抓取）
如HTTP协议、URL、请求方法（GET、POST等）和响应状态码（如200，404等）。
3. 对HTML页面的数据提取（数据提取）
爬虫通常需要从HTML中提取信息，因此你需要了解HTML标签、属性和CSS选择器。
4. Scrapy框架以及scrapy-redis分布式策略（第三方框架）
requests：一个用于发送HTTP请求的库，它可以帮助你获取网页的HTML内容
BeautifulSoup：一个用于解析HTML和XML的库，它可以帮助你在HTML文档中定位和提取信息。
lxml：一个解析HTML和XML的高性能库，可以作为BeautifulSoup的替代品。
Scrapy：一个强大的爬虫框架，用于构建和管理复杂的爬虫项目
6. 爬虫(Spider)、反爬虫(Anti-Spider)、反反爬虫(Anti-Anti-Spider)之间的斗争....
熟悉常见的反爬虫策略，如User-Agent伪装、IP代理、使用Selenium处理JavaScript等。
7.学习数据存储
学习如何将爬取的数据存储到文件（如CSV、JSON）或数据库（如MySQL、MongoDB）中。

可选择的IDE和编译器

工欲善其事，必先利其器：

IDE：PyCharm、Spyder、Visual Studio等
编辑器：Vim、Sublime Text、Atom等

由于爬虫相关的内容很多，要学的知识点也琐碎，所以下面仅仅带大家了解Python爬虫，具体学习需要看完整的课程：

Python 入门教程完整版（全 547 集）https://www.zhihu.com/education/video-course/1483111485588742145

Python 基础学习课程，从搭建环境。判断语句，再到基础的数据类型，之后对函数进行学习掌握，熟悉文件操作，初步构建面向对象的编程思想，最后以飞机大战带领同学进入 Python 的编程殿堂。

Python 进阶之 MySQL 入门教程https://www.zhihu.com/education/video-course/1483114387146166272

课程内容： 1.掌握数据库的分类；2.熟悉 SQL 介绍；3.熟悉 MySQL 介绍；4.掌握数据库基本操作；5.掌握数据的增删改查 CRUD；6.掌握 MySQL 脚本数据备份；7.掌握 Python 操作数据库 CRUD。

Python 深入浅出进阶课程https://www.zhihu.com/education/video-course/1483114387217539072

课程亮点： 1，对于已经学习过 Python 基础学科课程，或是想深入 Python 编程的同学十分适合。 2，生动形象，浅显易懂，清晰明了。 3，针对 Python 编程进一步所需要的知识点详细讲解，构建 Python 语言的完成的编程能力。

Python 爬虫入门：180 分钟轻松获取疫情数据 - https://www.zhihu.com/education/video-course/1519760257778069504

通用搜索引擎（Search Engine）工作原理

通用网络爬虫 从互联网中搜集网页，采集信息，这些网页信息用于为搜索引擎建立索引从而提供支持，它决定着整个引擎系统的内容是否丰富，信息是否即时，因此其性能的优劣直接影响着搜索引擎的效果。

第一步：抓取网页

搜索引擎网络爬虫的基本工作流程如下：

首先选取一部分的种子URL，将这些URL放入待抓取URL队列；
取出待抓取URL，解析DNS得到主机的IP，并将URL对应的网页下载下来，存储进已下载网页库中，并且将这些URL放进已抓取URL队列。
分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环....

搜索引擎如何获取一个新网站的URL：

1. 新网站向搜索引擎主动提交网址：（如百度http://zhanzhang.baidu.com/linksubmit/url）
2. 在其他网站上设置新网站外链（尽可能处于搜索引擎爬虫爬取范围）
3. 搜索引擎和DNS解析服务商(如DNSPod等）合作，新网站域名将被迅速抓取。

但是搜索引擎蜘蛛的爬行是被输入了一定的规则的，它需要遵从一些命令或文件的内容，如标注为nofollow的链接，或者是Robots协议。

Robots协议（也叫爬虫协议、机器人协议等），全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，例如：
淘宝网： https://www.taobao.com/robots.txt
腾讯网： http://www.qq.com/robots.txt