Python 正则表达式
一、正则表达式概述
1、为什么要学习正则表达式
在实际开发过程中经常会有查找符合某些复杂规则的字符串的需要
比如:邮箱、图片地址、手机号码等
这时候想匹配或者查找符合某些规则的字符串就可以使用正则表达式了
2、什么是正则表达式
正则表达式(regular expression)描述了一种字符串匹配的模式,可以检查一个串是否包含有某种子串,将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。
模式:一种特定的字符串模式,这个模式是通过一些特殊的符号组成的。
某种:也可以理解为是一种模糊匹配。
精准匹配:select * from blog where title=‘python’;
模糊匹配:select * from blog where title like ‘%python%’;
正则表达式并不是Python所特有的,在Java、PHP、Go以及JavaScript等语言中都是支持正则表达式的。
3、正则表达式的功能及应用场景
- 数据验证(表单验证,如手机、邮箱、IP地址)
- 数据检索(数据检索、数据抓取)
- 数据隐藏(153****3644 王先生)
- 数据过滤(论坛敏感关键词过滤)
二、re模块的介绍
1、什么是re模块
在Python中需要通过正则表达式对字符串进行匹配的时候,可以使用一个re模块
2、re模块使用三步走
# 第一步:导入re模块
import re
# 第二步:使用match方法进行匹配操作
result = re.match(pattern正则表达式, string要匹配的字符串, flags=o)
# 第三步:如果数据匹配成功,使用group方法来提取数据
result.group()
match函数参数说明:
参数 | 描述 |
---|---|
pattern | 匹配的正则表达式 |
string | 要匹配的字符串 |
flags | 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。 |
匹配成功re.match方法返回一个匹配的对象,否则返回None。
我们可以使用group(num)或groups()匹配对象函数来获取匹配数据。
正则表达式可以包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志。多个标志可以通过按位 OR(|) 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志:
修饰符 | 描述 |
---|---|
re.I | 使匹配对大小写不敏感 |
re.L | 做本地化识别(locale-aware)匹配,这个功能是为了支持多语言版本的字符集使用环境的,比如在转义符\w,在英文环境下,它代表[a-zA-Z0-9_],即所以英文字符和数字。如果在一个法语环境下使用,缺省设置下,不能匹配"é" 或 “ç”。加上这L选项和就可以匹配了。不过这个对于中文环境似乎没有什么用,它仍然不能匹配中文字符。 |
re.M | 多行匹配,影响 ^ 和 $ |
re.S | 使 . 匹配包括换行在内的所有字符 |
re.U | 根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B. |
re.X | VERBOSE,冗余模式, 此模式忽略正则表达式中的空白和#号的注释,例如写一个匹配邮箱的正则表达式。该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。 |
3、re模块的相关方法
re.match(pattern, string, flags=0)
- 从字符串的起始位置匹配,如果匹配成功则返回匹配内容,否则返回None
re.findall(pattern, string, flags=0)
- 扫描整个字符串,返回所有与pattern匹配的列表
- 注意:如果pattern中有分组则返回与分组匹配的列表
- 举例:re.findall(‘\d’, ‘hello1world2’) >> [‘1’, ‘2’]
re.finditer(pattern, string, flags=0)
- 功能与上面findall一样,不过返回的是迭代器
参数说明:
- pattern : 模式字符串。
- repl : 替换的字符串,也可为一个函数。
- string : 要被查找替换的原始字符串。
- count : 模式匹配后替换的最大次数,默认 0 表示替换所有的匹配。
- flags: 匹配方式:
- re.I 使匹配对大小写不敏感,I代表Ignore忽略大小写
- re.S 使 . 匹配包括换行在内的所有字符
- re.M 多行模式,会影响^,$
4、正则表达式快速入门
示例一:
import re
# 查找一个字符串是否有数字'6'
result = re.findall('6', '275672318349')
if result:
print(result)
else:
print('字符串未找到!')
'''
['6']
'''
示例二:
import re
# 查找一个字符串是否有数字
result = re.findall('\d', '2adafe231ada9')
if result:
print(result)
else:
print('字符串未找到!')
示例三:
import re
# 查找一个字符串是否有非数字
result = re.findall('\D', '2adafe231ada9')
if result:
print(result)
else:
print('字符串未找到!')
三、正则表达式
正则三步走:查什么、怎么查、从哪查
1、查什么
代码 | 功能 |
---|---|
.(英文点号) | 匹配任意1个字符(除了\n) |
[ ] | 匹配[ ]中列举的某个字符,专业名词 => 字符簇 |
[^指定字符] | 匹配除了指定字符以外的其他某个字符,^专业名词 => 托字节 |
\d | 匹配数字,即0-9 |
\D | 匹配非数字,即不是数字 |
\s | 匹配空白,即 空格,tab键 |
\S | 匹配非空白 |
\w | 匹配非特殊字符,即a-z、A-Z、0-9、_ |
\W | 匹配特殊字符,即非字母、非数字、非下划线 |
字符簇常见写法:
- [a-z]表示匹配a-z之间26个字符中的任意某个
- [A-Z]代表匹配A-Z之间26个字符中的任意某个
- [0-9]代表匹配0-9之间10个字符中的任意某个
- [0-9a-zA-Z]代表匹配0-9之间、a-z之间、A-Z之间的任意某个字符
2、查多少
代码 | 功能 |
---|---|
* | 匹配前一个字符出现0次或者无限次,即可有可无(0到多) |
+ | 匹配前一个字符出现1次或者无限次,即至少有1次(1到多) |
? | 匹配前一个字符出现1次或者0次,即要么有1次,要么没有(0或1) |
{m} | 匹配前一个字符出现m次,匹配手机号码\d{11} |
{m,} | 匹配前一个字符至少出现m次,\w{3,},代表前面这个字符最少要出现3次,最多可以是无限次 |
{m,n} | 匹配前一个字符出现从m到n次,\w{6,10},代表前面这个字符出现6到10次 |
3、从哪查
代码 | 功能 |
---|---|
^ | 匹配以某个字符串开头 |
$ | 匹配以某个字符串结尾 |
四、正则表达式其他用法
1、选择匹配符
| 可以匹配多个规则
示例:
import re
# 查找一个字符串是否有非数字
result = re.finditer('hello(java|python)', 'hellojava, hellopython')
for i in result:
print(i.group())
2、分组别名
代码 | 功能 |
---|---|
(?P<name>) | 分组起别名 |
(?P=name) | 引用别名为name分组匹配到的字符串 |
示例:
import re
# 匹配:<title>Title</title>
str1 = '<title>Title</title>'
result = re.search(r'<(?P<mark>\w+)>.*</(?P=mark)>', str1)
print(result.group())