python学习基础篇——初识正则表达式

最新推荐文章于 2024-09-15 22:31:42 发布

Snowy_susu

最新推荐文章于 2024-09-15 22:31:42 发布

阅读量243

点赞数

分类专栏： python学习笔记文章标签： python re 正则表达式

本文链接：https://blog.csdn.net/Snowy_susu/article/details/84985246

版权

python学习笔记专栏收录该内容

5 篇文章 1 订阅

订阅专栏

正则表达式：小型高度专业化的编程语言，可以为想要匹配的字符串指定相应的规则； python中的正则表达式可以被编译成字节码由C编写的匹配引擎执行。初识部分设计字符匹配中正则表达式规则的编写过程。

# 正则表达式 import re
# 编译正则表达式 re.compile()
# re.I 可以实现规则中字母大小写均可匹配。


# 字符匹配：普通字符 元字符
# 元字符包含  . ^ $ * + ? {} [] \ | | ()
# [] 用在规则中常用来指定一个字符串集,任何一个字符都可以拿来匹配[abc]/[a-z]，
# 	 元字符在其中不起作用[asd$] 
# 	 补集匹配不在区间范围内的字符[^ac] 除了ac,剩下的所有
# ^ 用在规则中通常用来匹配行首 放在字符串首部 ^+string
# $ 用在规则中用来匹配行尾 放在字符串尾部 string+$
# \ 转义字符 后加不同的字符表示不同的特殊意义
# 也可以用来取消所有的元字符 \\ \[
# \d 匹配任何十进制相当于[0-9]
# \D 匹配任何非数字字符 相当于[^0-9]
# \s 匹配任何空白字符 相当于[\t\n\r\f\v]
# \S 匹配任何非空白字符 相当于[^\t\n\r\f\v]
# \w 匹配任何字母 数字字符 相当于[a-zA-Z0-9]
# \W 匹配任何非字母 数字字符 相当于[^a-zA-Z0-9]
# 重复
# ｛｝ 规则｛数字｝表示将前面的规则重复多少次
# * 表示将前面规则重复匹配零次或多次
# + 表示将前面规则重复匹配一次或多次
# ? 表示将前面规则重复匹配零次或一次 ，可用来标识某事物是可选的
# 贪婪模式 ：做最大匹配 r = r"ab+"  或者 r = r"ab+"
# 非贪婪模式 ：做最小匹配 r = r"ab？" 
# . 匹配除换行符意外的所有单个字符 如：r = r"a.b" 可以匹配 acb , adb,不能匹配 asdb
# () 将位于（）内的内容当作一个整体。


import re 
# s= "abc"
s= r"abc" # 用r保持字符串的原意

# re.findall(pattern, string, flags=0)  Return a list of all non-overlapping matches in the string.
# 拿字符串与规则进行比较，返回字符串与规则相同的字符串
re.findall(s,"aaaaaaaaaaaaaaaaaaaaaa") # [] 返回为空
print(re.findall(s,"aaaaaaaaaabcaaaabcaa")) # ['abc', 'abc']

st = "top tip tqp typ tep"
res = r"top"
print(re.findall(res,st)) # ['top']

# []
res2 = r"t[io]p"  # i,o
print(re.findall(res2,st)) # ['top', 'tip']

resn = r"t[a-z]p" # a到z [0-9]即0到9 [A-Z]
print(re.findall(resn,st)) # ['top', 'tip', 'tqp', 'typ', 'tep']

resc = r"t[^oi]p" # 除了oi剩下所有
print(re.findall(resc,st)) # ['tqp', 'typ', 'tep']

# ^ 

str = "hello world , hello boy"
r = r"hello" # 规则
print(re.findall(r,str)) # ['hello', 'hello']
r1 = r"^hello" 
print(re.findall(r1,str)) # ['hello'] 只匹配存在与行首的符合规则的字符串，如果开通没有 返回空

# $ 

rs = r"boy$"
print(re.findall(rs,str)) # ['boy']
# 元字符在[]中不起作用[asd$] ,只是将元字符当作了一个普通符号处理。
r3 = r"t[abc$]"
print(re.findall(r3,"ta")) # ['ta']
print(re.findall(r3,"tbwer")) # ['tb']

print(re.findall(r3,"t$sdgregergs"))  # ['t$']
r3 = r"t[abc^]"
print(re.findall(r3,"tsdgt^gergs")) # ['t^']

#…………………………………………………………………… \ …………………………………………………………………………………………………………

r=r"\^abc"
print(re.findall(r," abc ^abc ^ abc")) # ['^abc']
r=r"\w"
print(re.findall(r," ASdh123#$^%^")) # ['A', 'S','d', 'h', '1', '2', '3']

#……………………………………………………………………  重复 …………………………………………………………………………………………………………
# ｛｝指定正则表达式的一部分重复次数
tle = "010-12345678"
r = r"^010-\d\d\d\d\d\d\d\d" # 重复匹配8次
print(re.findall(r,"010-1234567"))  # []
print(re.findall(r,"010-12345678")) # ['010-12345678']

# {} 
r = r"^010-\d{8}" 
print(re.findall(r,"010-12345678"))# ['010-12345678']

# * 
# + 
# ? 
r = r"ab*"
print(re.findall(r,"aababbbbbbb")) # ['a', 'ab', 'abbbbbbb']
r = r"ab+"
print(re.findall(r,"aababbbbbbb")) # ['ab', 'abbbbbbb']
r = r"ab?"
print(re.findall(r,"aababbbbbbb")) # ['a', 'ab', 'ab']
r = r"^010-?\d{8}" # 标识带区号的电话号码输入 - 作为可选输入
print(re.findall(r,"01087654321"))  # ['01087654321']

# 编译正则表达式 re.compile() 成为一个正则对象使用 可以调用正则表达式的所有内部函数
r1 = r"^010-?\d{8}$" # 北京的电话号码规则
BJ_tel= re.compile(r1)
print(BJ_tel.findall("01064838347")) # ['01064838347']

# re.I 
name_re = re.compile(r"snowy",re.I)
print(name_re.findall("Snowy")) # ['Snowy']