如何用正则表达式爬取古诗文网中的数据（python爬虫）

莓事哒

于 2025-03-15 19:28:48 发布

阅读量1.8k

点赞数 18

分类专栏： Python网络爬虫文章标签：爬虫 python pycharm

本文链接：https://blog.csdn.net/2301_80945113/article/details/146283331

版权

一、了解正则表达式的基本内容：

正则表达式（Regular Expression，简称 regex）是一种用于匹配字符串的模式。它通过特定的语法规则，可以高效地搜索、替换和提取文本中的特定内容。正则表达式广泛应用于文本处理、数据验证、日志分析等领域。

在爬虫中，正则表达式主要用于从网页源码中提取所需信息。以下是其主要应用场景：

数据提取：
- 从HTML中提取特定标签的内容，如链接、标题、图片地址等。
- 示例：提取所有链接：<a\s+(?:[^>]*?\s+)?href="([^"]*)"
数据清洗：
- 去除多余的空格、换行符或HTML标签。
- 示例：去除HTML标签：<[^>]+>
数据验证：
- 验证提取的数据是否符合预期格式，如邮箱、日期等。
- 示例：验证邮箱：^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$
URL匹配：
- 匹配特定模式的URL，用于过滤或分类。
- 示例：匹配图片URL：https?://[^\s]+?\.(jpg|png|gif)

基本语法：
- 字符匹配：普通字符匹配自身，如 a 匹配字符 "a"。
- 元字符：具有特殊含义的字符，如 . 匹配任意字符，* 匹配前一个字符的零次或多次。
字符类：
- [abc] 匹配 "a"、"b" 或 "c"。
- [^abc] 匹配除 "a"、"b"、"c" 之外的字符。
- \d 匹配数字，\w 匹配字母、数字或下划线，\s 匹配空白字符。
量词：
- *：零次或多次。
- +：一次或多次。
- ?：零次或一次。
- {n}：恰好 n 次。
- {n,}：至少 n 次。
- {n,m}：n 到 m 次。
分组和捕获：
- (abc) 匹配 "abc" 并捕获。
- (?:abc) 匹配 "abc" 但不捕获。
锚点：
- ^ 匹配字符串开头。
- $ 匹配字符串结尾。
- \b 匹配单词边界。
贪婪与懒惰匹配：
- 默认是贪婪匹配，尽可能匹配更多字符。
- 在量词后加 ? 可进行懒惰匹配，尽可能匹配更少字符。
- 示例：a.*?b 匹配 "a" 和 "b" 之间的最短内容。