Python 正则表达式

最新推荐文章于 2024-04-29 17:20:51 发布

jj91589

最新推荐文章于 2024-04-29 17:20:51 发布

阅读量217

点赞数

"""
正则表达式的主要功能就是匹配字符串
"""
import re
# 基本用法
ret = re.findall('world', "hello world**Worldworld") # 查找制定字符串，以list形式返回
print(ret)
"""
原字符
"""
# 1. '.' 通配符：代表任意字符，一个点一个字符
ret = re.findall('w...d', "hello world")
print(ret) # ['world']
ret = re.findall('w...d', "hello w\nrld")
print(ret) # [] 除了\n其他都行,当然也可以通过修改findall的第三个参数去修改成连\n都能匹配
# 2. '^' 尖角符：必须从字符串的起始位置开始匹配,不考虑后续字符串中是否存在
ret = re.findall('^w...d', "hello world")
print(ret) # []
ret = re.findall('^w...d', "worldhello world")
print(ret) # ['world']
# 3. '$' 只从最后开始匹配
ret = re.findall('w...d', "hello world!!")
print(ret) # ['world']
ret = re.findall('w...d$', "hello world!!")
print(ret) # []
ret = re.findall('w...d$', "hello world!!world")
print(ret) # ['world']
# *************************************************************
# 4. '*' 重复匹配允许*之前的一个字符重复多次
ret = re.findall('hello*world', 'hellooooooworld')
print(ret) # ['hellooooooworld']
ret = re.findall('hello.*world', 'hello@@sssworld') # 如果我使用通配符'.'他就能匹配任意字符
print(ret) # ['hello@@sssworld']
# 5. '+' 也是重复匹配但是至少得有一个
ret = re.findall('hello*world', 'hellworld')
print(ret) # ['hellworld']
ret = re.findall('hello+world', 'hellworld')
print(ret) # []
# 也就是说'+'号之前的o，在目标字符串里必须出现一次，但是'*'号允许一次也不出现
# 6. '?' 还是重复匹配，但是只能是0次或者1次多了就不行
ret = re.findall('hello?world', 'hellworld')
print(ret) # ['hellworld']
ret = re.findall('hello?world', 'helloworld')
print(ret) # ['helloworld']
ret = re.findall('hello?world', 'helloooworld')
print(ret) # []
# 7. '{}' 大括号也是重复匹配，但是匹配几次自己可以设置
ret = re.findall('a{5}b', 'aaaabbaaa') # 要求a重复5次
print(ret) # []
ret = re.findall('a{5}b', 'aaaaabbaaa')
print(ret) # ['aaaaab']
ret = re.findall('a{1,3}b', 'ba***aab***aaab***aaaaaaaabaaa')
print(ret) # ['aab', 'aaab', 'aaab']

 
   """ 
 正则表达式 
 """  
   
 import re  
   
 # 1. '[]' 字符集 其实就是或的关系,允许字符集内任意一个字符  
 ret = re.findall('a[cd]x', '***adx***')  
 print(ret)  # ['adx']  
   
 ret = re.findall('a[cd]x', '***acx***')  
 print(ret)  # ['acx']  
   
 # 匹配a-z  
 ret = re.findall('[a-z]', 'ac@@z')  
 print(ret)  # ['a', 'c', 'z']  
   
 # 取消元字符的特殊功能 '^','-','\'例外  
 ret = re.findall('abc[.]cn', 'abc.cn')  
 print(ret)  
   
 # 取反  
 ret = re.findall('[^abc]', 'eabcd')  
 print(ret)  # ['e', 'd']  
   
 ret = re.findall('[^4,5]', '12345')  # 取反的是[]内所有值  
 print(ret)  # ['1', '2', '3']  
   
 # 2. '\' 去除元字符特殊功能或者实现部分普通字符的特殊功能  
 ret = re.findall('\d', 'aaa123bbb')  # 匹配所有十进制数字  
 print(ret)  # ['1', '2', '3']  
   
 ret = re.findall('\d{11}', 'aaa13411012099bbb13012033344')  
 print(ret)  # ['13411012099', '13012033344']  
   
 ret = re.findall('\D', 'aaa123bbb')  # 匹配所有非十进制数字  
 print(ret)  # ['a', 'a', 'a', 'b', 'b', 'b']  
   
 # 匹配任意空白字符 \t \n \r \f \v这些都是  
 ret = re.findall('\saaa', ' ** \t\naaa')  
 print(ret)  # ['\naaa']  
   
 # 匹配任意非空白字符  
 ret = re.findall('\Saaa', ' aaa** \t\naaa baaa')  
 print(ret)  # ['baaa']  
   
 # 匹配任意数字字母字符  
 ret = re.findall('\w{3}a', 'abca,123a, a1a,1e3a')  
 print(ret)  # ['abca', '123a', '1e3a']  
   
 # 匹配任意非数字非字母字符  
 ret = re.findall('\W', 'abc@123$a1w%1e3')  
 print(ret)  # ['@', '$', '%']  
   
 # 匹配一个特殊边界  
 ret = re.findall('I\b', 'I am a LIST')  
 print(ret)  # []  
 # 怎么会没有呢 因为\b在Python里也有转义,退格符  
 ret = re.findall(r'I\b', 'I am a LIST')  
 print(ret)  # ['I']  
 # 字符串之前加个r就可以防止被Python转义,正则表达式有自己的语法规则,两个\b不是一个意思哈  
   
 """ 
 ---------------------------------------------------------------------------- 
 """  
 # search方法 匹配出满足条件的第一个结果 返回的是一个对象  
 ret = re.search('a.b', 'aabaac').group()  
 print(ret)  # aab  
   
 ret = re.search('aaa', "aaaaaaa")  
 print(ret.group())  
 # 如果没有匹配到返回的None(去除元字符意义）  
 print(re.search('a\.b', 'aaacbaac'))  # None  
   
 # 两个\是一个特殊的用法,由于在Python解释器里'\'也是有转义的意思,所以'\\\\'前两个是给Python看的,  
 # 然而正则表达式的语法里，对于'\'也是有语法规则（去除特殊意义），那如果要用\去除\的特殊意义，也需要两个\  
 # 加起来就变成4个了,所以以后记得不要转义的话，字符串前加r  
 ret = re.search('\\\\', 'abcD\de').group()  
 print(ret)  # \  
   
 ret = re.search(r'\\', 'abcD\de').group()  
 print(ret)  # \  
   
 ret = re.search('\\babc', 'abcbcc').group()  
 print(ret)  # abc  
   
 """ 
 ----------------------------------------------------------------------------- 
 """  
   
 # 4. '()'分组 和 '|'或  
   
 ret = re.search('a(bc)+', 'abcbc').group()  
 print(ret)  # abcbc  
   
 # ?P<id> 这个id就是分组的名字，可以通过返回的对象，取不同的内容  
 ret = re.search('www\.(?P<name>\w+)\.(com|cn)', 'eeewww.ThisIsATest.cnxxxxwww.ccc.com')  
 print(ret.group('name'))  # ThisIsATest  
   
 # IP地址正则匹配，不允许第一段为0,最后一段可以0-255，0代表网段，255虽然客户端不能使用，但是这个地址试有用的  
 # 最后一段的顺序是有讲究的，越小的集合放在越前面，因为最有没有'.'作为分割了  
 ret = re.search(  
     '(([1-9])|(1\d\d?)|(2[0-4]?\d)|(25[0-5]))\.'    #IP第一段 1-255  
     '(((1?\d?\d)|(2[0-4]?\d)|(25[0-5]))\.){2}'      #第二第三段 0-255   
     '((25[0-5])|(2[0-4]\d)|(1?\d?\d))',             #第四段 0-255   
     'ipaddr:232.2.5.253').group()  
 print(ret)  
   
 """ 
 -------------------------------------------------------------------------------------------- 
 """  
 """ 
 re常用方法 
  
 1.findall() : 返回所有结果到一个列表 
 2.search() : 返回一个对象，可以通过调用对象的group()方法获取返回值 
 3.match() : 从字符串头部开始匹配，返回一个对象，可以通过调用对象的group()方法获取返回值 
 """  
 # 4.split 这个举个例子  
 # 他这个分割会先按照';'去分割--->['aaa,111', 'bbb,222']  
 # 然后再按照','去分割每一个元素  
 
 

[python]view plain copy 
    
 # 其实我测试了一下，这个先后关系没有发现什么实际意义，通过源码的注释，我也没有发现什么，我觉得理解成 或 也没什么问题  
 ret = re.split('[;,]', 'aaa,111;bbb,222')  
 print(ret)  # ['aaa', '111', 'bbb', '222']  
   
 # 5.sub 替换方法 第一个参数：目标字符串  第二个参数：被替换成什么字符串  第三个参数：源字符串  
 ret = re.sub('a..', 'bbb', '**aac*abbcc')  
 print(ret)  # **bbb*bbbcc  
   
 # 6.compile 创建一个带有规则的re对象  
 cmp = re.compile('\.com')  
 print(cmp.search("aabbcc.com").group())  # .com  
 print(cmp.sub('.cn', 'aabbcc.com'))  # aabbcc.cn 
 
 原文章  http://blog.csdn.net/tyrantu1989/article/details/78416440 
 http://blog.csdn.net/tyrantu1989/article/details/78427746

jj91589

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python 正则表达式

""" 正则表达式的主要功能就是匹配字符串 """ import re # 基本用法 ret = re.findall('world', "hello world**Worldworld") # 查找制定字符串，以list形式返回 print(ret) """ 原字符 """ # 1. '.' 通配符：代表任意字符，一个
复制链接

扫一扫