正则表达式基础知识必备

最新推荐文章于 2022-04-10 22:45:23 发布

White Root

最新推荐文章于 2022-04-10 22:45:23 发布

阅读量266

点赞数

分类专栏：后端文章标签： python

本文链接：https://blog.csdn.net/root1228544694/article/details/104476878

版权

后端专栏收录该内容

5 篇文章 0 订阅

订阅专栏

正则表达式

正则表达式认识
re模块
匹配单个字符
- 匹配单个字符代码案例
匹配多个字符
- 匹配多个字符代码案例
匹配开头和结尾
- 匹配开头和结尾代码案例
匹配分组
- 匹配分组代码案例
其他补充

正则表达式认识

想匹配或者查找符合某些规则的字符串一般需要使用正则表达式，正则表达式就是记录文本规则的代码。

re模块

import re
re.match用来匹配数据
re.group用来获取匹配的数据

匹配单个字符

代码	功能
.	匹配任意1个字符（除了\n）
[ ]	匹配[ ]中列举的字符
\d	匹配数字，即0-9
\D	匹配非数字，即不是数字
\s	匹配空白，即空格，tab键
\S	匹配非空白
\w	匹配非特殊字符，即az、AZ、0-9、_、汉字
\W	匹配特殊字符，即非字母、非数字、非汉字

匹配单个字符代码案例

import re
#匹配单个字符

# .	匹配任意1个字符（除了\n）
print(re.match(".", "m").group())
print(re.match("t.o", "too").group())
print(re.match("t.o", "two").group())
print(re.match("t.o", "t_o").group())
print(re.match("t.o", "t-o").group())

# [ ]	匹配[ ]中列举的字符
print(re.match("h", "hello python").group())
print(re.match("H", "Hello python").group())
print(re.match("[hH]", "Hello python").group())
print(re.match("[0-9]", "9Hello python").group())

# \d	匹配数字，即0-9
print(re.match("嫦娥1号", "嫦娥1号发射成功").group())
print(re.match("嫦娥\d号", "嫦娥1号发射成功").group())
print(re.match("\D", "f").group())

# \s	匹配空白，即空格，tab键
# \S	匹配非空白
print(re.match("hello\sworld", "hello world").group())
print(re.match("hello\sworld", "hello\tworld").group())

# \w	匹配非特殊字符，即az、AZ、0-9、_、汉字
# \W	匹配特殊字符，即非字母、非数字、非汉字
print(re.match("\w", "A").group())

匹配多个字符

代码	功能
*	匹配前一个字符出现0次或者无限次，即可有可无
+	匹配前一个字符出现1次或者无限次，即至少有1次
?	匹配前一个字符出现1次或者0次，即要么有1次，要么没有
{m}	匹配前一个字符出现m次
{m,n}	匹配前一个字符出现从m到n次

匹配多个字符代码案例

import re
# *	匹配前一个字符出现0次或者无限次，即可有可无
print(re.match("[A-Z][a-z]*", "M1").group())
print(re.match("[A-Z][a-z]*", "Ma1").group())
print(re.match("[A-Z][a-z]*", "MM1").group())
print(re.match("[A-Z][a-z]*", "MMaaa1").group())
print(re.match("[A-Z][a-z]*", "Maaa1").group())
print(re.match("t.*o", "t2o").group())

# +	匹配前一个字符出现1次或者无限次，即至少有1次
print(re.match("t.+o", "t2o").group())
print(re.match("t.+o", "t_o").group())
print(re.match("t\w+o", "two").group())

# ?	匹配前一个字符出现1次或者0次，即要么有1次，要么没有
print(re.match("https?", "http").group())
print(re.match("0539-?", "0539-127").group())
print(re.match("0539-?", "0539127").group())
# 例:02112345678 或者  021-12345678
print(re.match("021-?\d{8}", "021-12345678").group())
print(re.match("021-?\d{8}", "02112345678").group())

# {m}	匹配前一个字符出现m次
print(re.match("[a-zA-Z0-9_]{6}", "12a3g45678").group())
print(re.match("[0-9]{6}", "12345678").group())
print(re.match("\d{11}", "12345678911").group()) #匹配手机号

# {m,n}	匹配前一个字符出现从m到n次
print(re.match("[a-zA-Z0-9_]{8,20}", "1ad12f23s34455ff66").group())
print(re.match("[a-z0-9_]{3,4}", "1ad").group())
print(re.match("[a-z0-9_]{3,4}", "1ad2").group())
print(re.match("\d{3,4}-?\d{7,8}", "0571-8123456").group())
print(re.match("\d{3,4}-?\d{7,8}", "12345678912345").group())

匹配开头和结尾

代码	功能
^	匹配字符串开头
$	匹配字符串结尾

匹配开头和结尾代码案例

import re
# ^	匹配字符串开头
print(re.match("^\d.*", "3hello").group())
print(re.match("^\d.*", "33333").group())
print(re.match("^\d.*", "3").group())
# $	匹配字符串结尾
print(re.match(".*\d$", "hello5").group())
print(re.match(".*\d$", "5").group())
print(re.match(".*\d$", "52355").group())
# [^指定字符]: 表示除了指定字符都匹配
print(re.match("[^aeiou]", "h").group())

注：^ 以…开始, python语言的match是自动添加的. $以...结尾 "^xxx$ " $ 这个就是匹配到尾

# 匹配变量名是否有效
# 匹配规则: 字母_开头, 匹配的数据: names = ["age", "_age", "1age", "age1", "a_age", "age_1_", "age!", "a#123", "------"]

import re
names = ["age", "_age", "1age", "age1", "a_age", "age_1_", "age!", "a#123", "------"]

for temp in names:
    #使用正则判断
    #match就是从头开始，^可以不写，但是以后建议写上
    # $匹配到底，^从头开始匹配
    result=re.match("^[a-zA-Z_][A-Za-z0-9]*$",temp)
    if result:
        print("成功",result.group())
    else:
        print("失败",temp)

匹配分组

代码	功能
\|	匹配左右任意一个表达式
(ab)	将括号中字符作为一个分组
\num	引用分组num匹配到的字符串
(?P)	分组起别名
(?P=name)	引用别名为name分组匹配到的字符串

匹配分组代码案例

# 匹配分组
# |	匹配左右任意一个表达式
fruit_list = ["apple", "banana", "orange", "pear"]
# 匹配apple和pear
for temp in fruit_list:
    value=re.match("apple|orange", temp)
    if value:
        print(value.group())
    else:
        print("不匹配",temp)
# (ab)	将括号中字符作为一个分组
# 匹配出163、126、qq等邮箱
print(re.match("[a-zA-Z0-9_]{4,20}@(163|126|qq|sina|yahoo)\.com", "hello@163.com").group())
print(re.match("(qq):([1-9]\d{4,10})", "qq:10567").group(1))
print(re.match("(qq):([1-9]\d{4,10})", "qq:10567").group(2))
# \num	引用分组num匹配到的字符串
# 匹配出<html>hh</html>
print(re.match("<[a-zA-Z1-6]+>.*</[a-zA-Z1-6]+>", "<html>hh</div>").group())
print(re.match("<([a-zA-Z1-6]+)>.*</\\1>", "<html>hh</html>").group())

print(re.match("<([a-zA-Z1-6]+)><([a-zA-Z1-6]+)>.*</\\2></\\1>", "<html><h1>www.baidu.cn</h1></html>").group())
# (?P<name>)	分组起别名
# (?P=name)	引用别名为name分组匹配到的字符串
str_data = "<html><body>hh</body></html>"
print(re.match("<(?P<name1>[a-zA-Z]+)><(?P<name2>[a-zA-Z]+)>.*</(?P=name2)></(?P=name1)>", str_data).group())

其他补充

转义

\进行转义，在正则特殊的符号, 想以字符串的形式使用特殊字符，需使用转义。

# 匹配出163的邮箱地址，且 @ 符号之前有4到20位字符, 以.com结尾
import re
str= "xiaosun@163.com"

#正则中，如果是特殊字符，转义
print(re.match("\w{4,20}@163\.com", str).group())
print(re.match("[a-zA-Z0-9]{4,20}@163\.com", str).group())
# [^字符] 非
print(re.match("[^a]", "d").group())
print(re.match("[^@]+@163\.com", str).group())

高级用法

search+findall+sub

# 查询结果
# 	search 不会从头开始匹配,只要匹配到数据就结束
# 	案例:匹配出文章阅读的次数中的次数
# 	数据:"阅读次数为 9999"
import re
str="阅读次数为 9999"
print(re.match("\w+\s(\d+)",str).group(1))
print(re.search("\d+", str).group())

# 查询结果集 findall
# 案例: 统计出python、c、c + +相应文章阅读的次数
# 数据: "python = 9999, c = 7890, c++ = 12345"
str="python = 9999, c = 7890, c++ = 12345"
print(re.findall("\d+", str))


# 替换数据 sub
# 案例: 将匹配到的阅读次数换成998
# 数据: "python = 997"
# re.sub('替换的规则 ',替换成的数据,被替换的内容)
str = "python = 997, java = 101"
new_str=re.sub("\d+","998",str)
print(new_str)

原字符

import re 
print(re.match("\\\\\\\\", "\\\\").group())

print(re.match(r"\\", "\\").group())
print(re.match(r"\\\\", "\\\\").group())

White Root

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
正则表达式基础知识必备

正则表达式正则表达式认识re模块匹配单个字符匹配单个字符代码案例匹配多个字符匹配多个字符代码案例匹配开头和结尾匹配开头和结尾代码案例匹配分组匹配分组代码案例正则表达式认识想匹配或者查找符合某些规则的字符串一般需要使用正则表达式，正则表达式就是记录文本规则的代码。re模块匹配单个字符代码功能.匹配任意1个字符（除了\n）[ ]匹配[ ]中列举的字符\d...
复制链接

扫一扫

专栏目录