一、了解正则
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
正则表达式由普通字符(如’Python’中的字符)和元字符(如’\d’)组成
正则表达式的作用:
1.给定的字符串是否符合正则表达式的过滤逻辑(称作“匹配”):
2.可以通过正则表达式,从字符串中获取我们想要的特定部分。
二、在Python中正则的基本使用示例
string = "CC++&Python9 Java\n\r6OC_3Html2Python5Weachat”
1.判断string中是否存在”Python”
#使用Python内置函数判断
print(string.index("Python") > -1) #打印True,证明存在
print("Python" in string) #打印True,证明存在
#使用正则判断:需首先导入"import re",然后使用findall函数
result1 = re.findall("Python",string)
if len(result1) > 0:
print("str1中包含Python字符串")
print(result1) #打印出['Python','Python']
else:
print("str1不包含Python字符串")
2.’\d‘:表示0-9的数字,效果同’[0-9]’
#示例:使用正则匹配所有数字
result2 = re.findall('\d',string)
print("\n打印result2:")
print(result2) #打印出['9', '6', '3', '2', '5']
3.’\D‘:表示非数字,效果同’[^0-9]’
#示例:使用正则匹配所有非数字
result3 = re.findall('\D',string)
print("\n打印result3:")
print(result3) #打印出所有的非数字字符
4.’\w‘:匹配包括下划线在内任何单词字符。类似但不等价于“[A-Za-z0-9_]”,这里的”单词”字符使用Unicode字符集。
#示例:匹配包括下划线的任何单词字符
result4 = re.findall('\w',string)
print("\n打印result4:")
print(result4) #打印出所有的非数字字符,包括'_',但不包括'&'、'\n'等
5.’\W‘:匹配任何非单词字符,但不包括’_’,等价于’[^A-Za-z0-9_]’
#示例:使用正则匹配所有非单词字符
result5 = re.findall('\W',string)
print("\n打印result5:")
print(result5) #打印出['+', '+', '&', ' ', '\n', '\r']
6.’\s‘:匹配任何不可见字符,包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。
#示例:使用正则找出不可见字符
result6 = re.findall('\s',string)
print("\n打印result6:")
print(result6) #打印出[' ', '\n', '\r']
7.’ . ‘:匹配除“\n”之外的任何单个字符。要匹配包括“\n”在内的任何字符,请使用像“[\s\S]”的模式。
#示例:配除“\n”之外的任何单个字符
result7 = re.findall('.',string)
print("\n打印result7:")
print(result7) #打印
下面是以上测试的打印结果:
打印结果:
True
True
str1中包含Python字符串
['Python', 'Python']
打印result2:
['9', '6', '3', '2', '5']
打印result3:
['C', 'C', '+', '+', '&', 'P', 'y', 't', 'h', 'o', 'n', ' ', 'J', 'a', 'v', 'a', '\n', '\r', 'O', 'C', '_', 'H', 't', 'm', 'l', 'P', 'y', 't', 'h', 'o', 'n', 'W', 'e', 'a', 'c', 'h', 'a', 't']
打印result4:
['C', 'C', 'P', 'y', 't', 'h', 'o', 'n', '9', 'J', 'a', 'v', 'a', '6', 'O', 'C', '_', '3', 'H', 't', 'm', 'l', '2', 'P', 'y', 't', 'h', 'o', 'n', '5', 'W', 'e', 'a', 'c', 'h', 'a', 't']
打印result5:
['+', '+', '&', ' ', '\n', '\r']
打印result6:
[' ', '\n', '\r']
打印result7:
['C', 'C', '+', '+', '&', 'P', 'y', 't', 'h', 'o', 'n', '9', ' ', 'J', 'a', 'v', 'a', '\r', '6', 'O', 'C', '_', '3', 'H', 't', 'm', 'l', '2', 'P', 'y', 't', 'h', 'o', 'n', '5', 'W', 'e', 'a', 'c', 'h', 'a', 't']