python,正则表达式简例-基础
#正则表达式:是一个特殊的字符序列,一个字符串是否与我们所设定的这样的字符序列,相匹配。(灵魂是:规则)
# (快速检索文本、实现一些替换文本操作,
# eg:
# 检查一串数字是否为电话号码
# 检查一个字符串是否符合email
# 把一个文本里指定的单词替换为另一个单词
from abc import abstractproperty
import re
a = 'C|C++|Java|C#|Python|Javascript'
r = re.findall('Python', a)
if len(r) != 0:
print('have Python')
r = re.findall('PHP', a)
if len(r) > 0:
print('true')
else:
print('false')
#查询字符串中包含某些字符or字符串,可for循环,但正则更优雅
#正则表达式的优雅,
a = 'C0C++7Java8C#6Python6Javascript'
r = re.findall('\d',a)#搜索字符串a中的数字字符
print(r)
#'Python' 普通字符 , '\d'元字符 (数字字符) '\D'非数字字符
r = re.findall('\D',a)
print(r)
s = 'abc, acc, adc, aec, afc, ahc'
r = re.findall('a[c-f]c', s)#筛选出a c边界中间有c到f的字符串
print(r)
r = re.findall('a[^cf]c', s)#筛选出a c边界中间有c | f ^为取反(非c和f)
print(r)
#概括字符集
#\d 数字字符 \D
#\w 单词和下划线字符 \W
#\s 空白字符 \S
# . 匹配除换行符\n之外其他所有字符
#数量词
a = 'python 1111java898php'
r = re.findall('[a-z]{3,6}',a)#花括号表示数量词,a-z的字符重复3到6次 组成的长度为3到6的字符串 贪婪模式
print(r)#['python', 'java', 'php']
#贪婪 与 非贪婪的性质({})
# Python默认从贪婪的的模式开始,致使匹配顺序为从更长更大的数据 递减,
# 若切换为非贪婪花括号后加?,但这样如果匹配第一个长度成立时,后面长度大的就不再匹配了
r = re.findall('[a-z]{3,6}?',a)#非贪婪模式
print(r)#['pyt', 'hon', 'jav', 'php']
#匹配0次或者无限多次 字符串后面加(*)
#匹配1次或者无限多次 字符串后面加(+)
#匹配0次匹配1次 字符串后面加(?)
a = 'pytho0python3pythonnueoun6pythhh4'
r = re.findall('python*', a)#*号前面的字符可以匹配0次或者无限多次
print(r)#['pytho', 'python', 'pythonn']
r = re.findall('python+', a)#+号前面的字符可以匹配1次或者无限多次
print(r)#['python', 'pythonn']
r = re.findall('python?', a)#?号前面的字符可以匹配0次匹配1次
print(r)#['pytho', 'python', 'python']
#边界匹配 ^规则字符串$ ^表示从字符串开始的位置开始匹配规则字符串 $表示截止到规则字符串的位置匹配结束
qq = '100000002'
#QQ号4到8位
r = re.findall('^\d{4,8}$', qq)
print(r)
#[]里面的元字符表示或关系 ()里面的元字符表示且关系
#组
a = 'PythonPythonPythonPythonPythonPythonPython'
r = re.findall('(Python){3}',a)#()表示一个组,一个正则表达式可以有多个组,表示为一个字符串,重复3次
print(r)
#忽略大小写
launage = 'PythonC#\nJavaPHP'
r = re.findall('c#.{1}', launage, re.I | re.S)#re.I忽略大小写,re.S改变匹配行为
print(r)
#re.sub正则替换
launage = 'PythonC#JavaC#PHPC#'
r = re.sub('C#','GO', launage, 0)#0表示launage字符串中 无限的把C#替换成GO == replace, 如果0变成1表示替换一个并且为第一个, 不写默认为0
print('sub: '+ r)
launage = launage.replace('C#','GO')
print('replace: '+ launage)
#把函数作为参数传递
launage = 'PythonC#JavaC#PHPC#'
def convert(value):
method = value.group()
return '!!' + method + '@@'
r = re.sub('C#',convert,launage)
print(r)
#match search
s = 'A83C72D376838E9'
r = re.match('\d',s) #字符串首位开始找,找到 即结束找不到即为None
print(r)
if r != None:
print(r.span())#span返回位置
#search搜索字符串,找到匹配字符串即结束
r1 = re.search('\d',s) #字符串搜索找到 即结束
print(r1.group())
r2 = re.findall('\d', s)
print(r2)
#group 分组
s = 'life is short, i use python'
r = re.search('life(.*)python', s)
print(r.group(1))#获取life和python中间的字符串
#等效于
r = re.findall('life(.*)python', s)
print(r)
s = s + ', i love python'
r = re.search('life(.*)python(.*)python', s)
print(r.group(0,1,2))#打印出第0,1,2组打印内容
print(r.groups())#只返回有效的内容 groups