Python爬虫(二十一)
学习Python爬虫过程中的心得体会以及知识点的整理,方便我自己查找,也希望可以和大家一起交流。
—— 正则表达式应用详解 ——
相关文章:
1.Python的Re库应用详解(正则表达式的库)
2.Python的Re库与正则表达式的细节解析(正则表达式的库)
1. 简介
正则表达式:regular expression,也称regex,简称 RE
-
正则表达式模式被编译成一系列的字节码,然后由一个 C 语言写的匹配引擎所执行。
-
正则表达式是用来简洁表达一组字符串的表达式
-
通用的字符串表达框架
-
简洁表达一组字符串的表达式
-
针对字符串表达“简洁”和“特征”思想的工具
-
判断某字符串的特征归属
-
-
正则表达式在文本处理中十分常用
-
表达文本类型的特征(病毒、入侵等)
-
同时查找或替换一组字符串
-
匹配字符串的全部或部分
-
-
正则表达式的使用
- 编译:将符合正则表达式语法的字符串转换成正则式表达特征

- 编译:将符合正则表达式语法的字符串转换成正则式表达特征
2. 语法
正则表达式语法由字符和操作符构成
- 有一些符号不能匹配自身,它们定义了字符类、子组匹配和模式重复次数等功能,被称为元字符 (metacharacter)。
- 元字符包括:
. ^ $ * + ? { } [ ] \ | ( ) - 正则表达式的常用操作符
在反斜杠后边紧跟着一个元字符,那么元字符的“特殊功能”也不会被触发
| 操作符 | 说明 | 实例 |
|---|---|---|
| . | 表示任何单个字符(除换行符) 【注1】 | |
| [ ] | 字符集,对单个字符给出取值范围,元字符在方括号中不会触发功能 | [abc$]表示a、b、c、$,[a-z]表示a到z单个字符 |
| [^ ] | 非字符集,对单个字符给出排除范围 | [^abc]表示非a或b或c的单个字符 |
| * | 前一个字符0次或无限次扩展 【注2】 | abc* 表示 ab、abc、abcc、abccc等 |
| + | 前一个字符1次或无限次扩展 | abc+ 表示 abc、abcc、abccc等 |
| ? | 前一个字符0次或1次扩展 | abc? |

最低0.47元/天 解锁文章
4216

被折叠的 条评论
为什么被折叠?



