爬虫之使用正则提取数据

最新推荐文章于 2024-07-30 14:00:34 发布

wapecheng

最新推荐文章于 2024-07-30 14:00:34 发布

阅读量4.9k

点赞数 4

分类专栏：学习笔记文章标签：爬虫正则

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wapecheng/article/details/94154682

版权

本文介绍了爬虫中正则表达式的作用，强调了其在数据提取中的重要性。文章详细讲解了正则表达式的概念和匹配规则，包括Python的re模块和compile函数的使用，并通过实例演示了match、search、findall、finditer、split和sub等方法，还提及了匹配中文和贪婪模式与非贪婪模式的概念。

摘要由CSDN通过智能技术生成

一、页面解析和数据提取

一般来讲对我们而言，需要抓取的是某个网站或者某个应用的内容，提取有用的价值。内容一般分为两部分，非结构化的数据和结构化的数据。
非结构化数据：先有数据，再有结构，
结构化数据：先有结构、再有数据
不同类型的数据，我们需要采用不同的方式来处理。

非结构化的数据处理

文本、电话号码、邮箱地址

正则表达式

HTML 文件

正则表达式
XPath
CSS选择器

结构化的数据处理

JSON 文件

JSON Path
转化成Python类型进行操作（json类）

XML 文件

转化成Python类型（xmltodict）
XPath
CSS选择器
正则表达式

二、为什么要学正则表达式

实际上爬虫一共就四个主要步骤：

(1) 明确目标 (要知道你准备在哪个范围或者网站去搜索)
(2) 爬 (将所有的网站的内容全部爬下来)
(3) 取(去掉对我们没用处的数据)
(4) 处理数据（按照我们想要的方式存储和使用）

我们在之前的案例里实际上省略了第3步，也就是"取"的步骤。因为我们down下了的数据是全部的网页，这些数据很庞大并且很混乱，大部分的东西使我们不关心的，因此我们需要将之按我们的需要过滤和匹配出来。
那么对于文本的过滤或者规则的匹配，最强大的就是正则表达式，是Python爬虫世界里必不可少的神兵利器。

1、什么是正则表达式

正则表达式，又称规则表达式，通常被用来检索、替换那些符合某个模式(规则)的文本。
正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及
这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。
给定一个正则表达式和另一个字符串，我们可以达到如下的目的：

(1) 给定的字符串是否符合正则表达式的过滤逻辑（“匹配”）；
(2) 通过正则表达式，从文本字符串中获取我们想要的特定部分（“过滤”）。

最低0.47元/天解锁文章

关注

4
点赞
踩
40

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

wapecheng CSDN认证博客专家 CSDN认证企业博客

码龄6年

53: 原创

5万+: 周排名

230万+: 总排名

21万+: 访问

: 等级

1738: 积分

96: 粉丝

229: 获赞

50: 评论

1261: 收藏

私信

关注

热门文章

分类专栏

学习笔记 57篇
学习讲义 1篇

最新评论

HTTP协议详解--请求与响应
晴天阿良: 可靠性：TCP 提供可靠的数据传输，确保数据准确无误地到达目的地，这对于 HTTP 这种要求数据准确的协议非常重要。连接管理：TCP 支持连接的建立和维护，能够保证数据的有序传输，而 UDP 则不具备这些功能。流量控制和拥塞控制：TCP 可以进行流量控制和拥塞控制，避免网络拥塞和数据丢失，提高网络效率。
pyspark入门教程
Riven840: 我一套流程下来全都正常，最后测试程序还是显示No module named 'pyspark'
clickhouse基础教程
　　　 :
pyspark入门教程
梦梦0102: 博主，请问测试的时候一直报这样的错是因为什么啊
pyspark入门教程
梦梦0102: [code=python] [/code] Setting default log level to "WARN". To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel). 23/05/15 22:29:23 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 23/05/15 22:29:24 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041. 23/05/15 22:29:27 ERROR Executor: Exception in task 0.0 in stage 0.0 (TID 0) java.io.IOException: Cannot run program "python3": CreateProcess error=2, 系统找不到指定的文件。 at java.base/java.lang.ProcessBuilder.start(ProcessBuilder.java:1140) at java.base/java.lang.ProcessBuilder.start(ProcessBuilder.java:1074) at org.apache.spark.api.python.PythonWorkerFactory.createSimpleWorker(PythonWorkerFactory.scala:170) at org.apache.spark.api.python.PythonWorkerFactory.create(PythonWorkerFactory.scala:109)

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。