
Python 原生爬虫教程
文章平均质量分 65
专注 Python 原生爬虫知识交流,助力开发者快速上手,个人主页:c0b.cc/R4rbK2,掌握从基础到进阶的爬虫开发技能,合理合规采集数据。
普通网友
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python 原生爬虫教程:使用 Pytesseract 进行简单的验证码识别
在爬虫开发中我们经常会遇到一种反爬虫的手段就是验证码,那么如何才能绕过验证码拿到我们想要的数据呢?这节课我给大家介绍一个。Pytesseract 是 Python 中专门用来识别验证码和字符的常用第三方模块,它是一个根据 Google 开发的 Tesseract 包进行独立封装的产物。由于它在识别验证码方面具有得天独厚的优势,所以经常被爬虫开发程序员用来进行识别验证码。本节课我们就来使用 pytesseract 进行简单的验证码的识别。原创 2025-05-21 09:47:11 · 446 阅读 · 0 评论 -
Python 原生爬虫教程:数据清洗
理想中,我们获取的数据都是一样的格式,可是现实中,会有许多脏数据,有时候是数据太冗余,有时候是数据缺失,有时候是同一种类数据拥有不同的数据格式。比如生日,有的人使用阿拉伯数字,有的人使用英文简写,有的人则是加入了中文字符。如果只是简单的某一列数据问题,我们可以写一个脚本进行处理,可是,当数据太复杂,数据量太大,我们自己编写脚步就太浪费时间和精力了。有没有什么可视化工具,可以像操作Excel表格很方便的对数据进行分类,排序清洗那?有问题,肯定会有解决问题的方案。原创 2025-05-21 09:45:37 · 547 阅读 · 0 评论 -
Python 原生爬虫教程:数据可视化
爬虫只是我们获取数据的第一步,我们最终的目的是要让数据服务于人类,因此,我们需要Numpy,Pandas 等数据分析工具分析数据,然后使用 matplotlib 工具来绘制可视化图形,从而让我们的数据更加生动,更加被一般用户所理解和使用。在我们开始的我们的可视化的之旅之前,需要简单的介绍一些数据分析工具,我们的数据可视化的任务也是建立在数据分析的基础之上。除了简单的二维图形,同样,matplotlib 也可以很轻松的绘制三维图形,上面的代码就是我们绘制三位图形的简单版本。首选,我们来画一张最基本的直方图。原创 2025-05-21 09:27:32 · 349 阅读 · 0 评论 -
Python 原生爬虫教程:爬虫和反爬虫
有的时候,当我们的爬虫程序完成了,并且在本地测试也没有问题,爬取了一段时间之后突然就发现报错无法抓取页面内容了。这个时候,我们很有可能是遇到了网站的反爬虫拦截。我们知道,网站一方面想要爬虫爬取网站,比如让搜索引擎爬虫去爬取网站的内容,来增加网站的搜索排名。另一方面,由于网站的服务器资源有限,过多的非真实的用户对网站的大量访问,会增加运营成本和服务器负担。因此,有些网站会设置一些反爬虫的措施。我们只有认识了主要的反爬虫措施,才能识别反爬虫措施,从而进行反反爬虫。原创 2025-05-20 14:26:16 · 744 阅读 · 0 评论 -
Python 原生爬虫教程:Redis 的简单使用和配置
Redis是一个开源的内存数据结构存储系统,常用于缓存、消息队列和数据存储。任务队列(存储待爬取的 URL)去重集合(记录已爬取的 URL)分布式锁(协调多节点爬虫)安装 Redis(以 Ubuntu 为例):bash# 安装Redis服务器# 启动Redis服务# 验证服务状态Python 客户端安装bash。原创 2025-05-20 14:24:55 · 526 阅读 · 0 评论 -
Python 原生爬虫教程 :MongoDB 数据库的简单使用和配置
你可以使用 MongoDB 的命令行工具或任何 GUI 工具(如 Robo 3T 或 MongoDB Compass)来查看数据是否已经正确存储。这样,你就完成了一个简单的 Python 爬虫,并将数据存储到了 MongoDB 中。你可以根据需要调整爬虫逻辑和数据处理方式。以下是一个简单的爬虫示例,该爬虫从某个网页抓取数据,并存储到 MongoDB 中。(用于 MongoDB 的操作)。确保你已经安装了 MongoDB,并且它正在运行。首先,确保你的 Python 环境中安装了。(用于解析 HTML)和。原创 2025-05-19 11:40:22 · 333 阅读 · 0 评论 -
Python 爬虫基础教程:正则表达式页面提取
通过以上代码和技巧,你可以快速搭建一个简单的网页爬虫。对于复杂网站结构,建议结合使用 BeautifulSoup 库进行更高效的内容提取。原创 2025-05-19 10:52:57 · 406 阅读 · 0 评论 -
Python 原生爬虫教程:BeatifulSoup 的使用
BeautifulSoup(简称 BS4)是 Python 的 HTML/XML 解析库,能将网页文本转换为树形结构,方便快速定位和提取数据。支持多种解析器(如lxml),兼容性强。原创 2025-05-16 10:08:47 · 352 阅读 · 0 评论 -
Python 原生爬虫教程:使用 Xpath 进行爬虫开发
Xpath( XML Path Language, XML路径语言),是一种在 XML 数据中查找信息的语言,现在,我们也可以使用它在 HTML 中查找需要的信息。既然谈到 Xpath 是一门语言,当然它就会有自己的一些特定的语法。我们这里罗列一些经常使用的语法,熟悉下面的基本语法之后,就能满足我们日常的爬虫开发所用。原创 2025-05-16 09:57:17 · 847 阅读 · 0 评论 -
Python 原生爬虫教程: requests 第三方库
requests是 Python 中最流行的 HTTP 请求库,相比原生的urllib更简洁易用。处理各种 HTTP 请求(GET/POST/PUT/DELETE 等)自动处理 URL 编码、JSON 解析会话保持(自动管理 Cookie)超时设置、代理、SSL 验证等高级功能安装方式bash模拟浏览器行为,避免被网站识别为爬虫:pythonWin64;q=0.9,*/*;q=0.8',原创 2025-05-14 08:53:07 · 801 阅读 · 0 评论 -
Python 原生爬虫教程:HTTP 的请求和响应
以上就是 Python 原生爬虫中 HTTP 请求和响应的基础教程。掌握这些知识后,你可以进一步学习 HTML 解析(如使用 BeautifulSoup 库)和高级爬虫技术(如异步请求、分布式爬虫)。HTTP 协议是爬虫的核心,请求由客户端(如浏览器或 Python 程序)发送到服务器,响应则是服务器返回的数据。Python 内置的。原创 2025-05-14 08:49:39 · 409 阅读 · 0 评论 -
Python 原生爬虫教程:HTTP 协议通信基原理
HTTP 是我们进行爬虫的一个基础之一,我们通过 HTTT 协议才能顺利爬取到 HTML 里面的内容,HTTP 相当于是一条道路,HTML 等网页是道路的终点,我们必须遵守 HTTP 的交通规则,才能高效的在这条道路上运输数据。原创 2025-05-11 09:19:49 · 523 阅读 · 0 评论 -
Python 原生爬虫教程:HTML 与 CSS 基础入门
正所谓,知己知彼,百战不殆。我们爬虫的爬取对象,就是各式各样的网页,只有对网页的基本内容达到熟悉的程度,才能顺利的书写我们的爬虫程序。原创 2025-05-11 09:17:48 · 325 阅读 · 0 评论 -
Python 原生爬虫教程:网页基本构成和抓取原理
在抓取网页时,还需要注意遵循网站的使用条款和法律法规,避免对网站造成过大的负担或进行非法的抓取行为。同时,一些网站可能会采取反爬措施,如设置验证码、限制 IP 访问频率等,爬虫开发者需要采取相应的策略来应对这些反爬机制。原创 2025-05-11 09:15:18 · 309 阅读 · 0 评论