使用正则表达式进行爬虫数据提取：基础指南

Shadow℘Coder

于 2024-07-30 14:00:34 发布

阅读量2.8k

点赞数 4

分类专栏： Python学习文章标签：正则表达式爬虫 python virtualenv

本文链接：https://blog.csdn.net/RHeng/article/details/140794985

版权

Python学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

在爬虫开发中，正则表达式（Regular Expressions）是一种强大的文本处理工具，用于匹配、搜索、替换和解析字符串。它们定义了字符串的搜索模式，通过这些模式可以实现对复杂文本数据的精确提取。

一、正则表达式基础

1.1 概念与用途

正则表达式是一种特殊的字符串模式，用于描述在搜索文本时要匹配的一个或多个字符串。它们广泛用于文本搜索、数据验证和文本操作等场景。

1.2 基本语法

.：匹配除换行符以外的任意字符。
^：匹配字符串的开始。
$：匹配字符串的结束。
*：匹配前面的子表达式零次或多次。
+：匹配前面的子表达式一次或多次。
?：匹配前面的子表达式零次或一次。
{n}：n 是一个非负整数，匹配确定的 n 次。
{n,}：n 是一个非负整数，至少匹配n次。
{n,m}：m 和 n 均为非负整数，其中n <= m，最少匹配 n 次且最多匹配 m 次。
[xyz]：字符集合，匹配所包含的任意一个字符。
\d：匹配一个数字字符，等价于 [0-9]。
\D：匹配一个非数字字符，等价于 [^0-9]。
\w：匹配包括下划线的任何单词字符，等价于 [A-Za-z0-9_]。
\W：匹配任何非单词字符，等价于 [^A-Za-z0-9_]。

二、在Python中使用正则表达式

Python通过re模块提供了正则表达式的支持。使用该模块可以编译正则表达式对象、进行匹配、搜索、替换等操作。

2.1 导入re模块

import re

2.2 编译正则表达式

可以使用re.compile()函数编译一个字符串形式的正则表达式，生成一个正则表达式对象。这样做可以提高匹配效率，特别是当需要对同一正则表达式进行多次匹配时。

pattern = re.compile(r'\d+')

2.3 匹配操作

re.match(pattern, string, flags=0): 从字符串的起始位置匹配正则表达式，如果匹配成功，返回一个匹配对象；否则返回None。
re.search(pattern, string, flags=0): 扫描整个字符串，返回第一个匹配的对象。如果没有找到，则返回None。
re.findall(pattern, string, flags=0): 查找字符串中所有与正则表达式匹配的非重叠匹配项，返回一个列表。
re.finditer(pattern, string, flags=0): 查找字符串中所有与正则表达式匹配的非重叠匹配项，返回一个迭代器，每个迭代元素是一个匹配对象。

示例：提取网页中的数字
假设我们有一个网页的HTML内容，我们需要从中提取所有的数字。

python
import re  
  
# 示例HTML内容  
html_content = '<p>价格: 199元, 销量: 1234件</p>'  
  
# 编译正则表达式，匹配一个或多个数字  
pattern = re.compile(r'\d+')  
  
# 使用findall方法查找所有匹配项  
numbers = pattern.findall(html_content)  
  
# 打印结果  
print(numbers)  # 输出: ['199', '1234']