python re基本函数使用

最新推荐文章于 2024-07-23 14:36:35 发布

落花的世界

最新推荐文章于 2024-07-23 14:36:35 发布

阅读量417

点赞数

分类专栏： python 技术文章标签： python

原文链接：https://docs.python.org/3.8/library/re.html#regular-expression-syntax

版权

技术同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

python

4 篇文章 0 订阅

订阅专栏

import re
import string

# 简单入门
pattern = r'(\d+).(\d+)'  # 正则表达式模式
s = '123.45'  # 目标字符串
pattern = re.compile(pattern)  # 编译
match = pattern.search(s)  # 查找匹配
if match:
    print('匹配的字符串', match.group())  # 返回目标字符串和模式匹配的内容
    # 对于一个模式，里面可能含有子模式，通常使用()包裹，在上面(?P<int>\d+)就是一个子模式
    # 通过调用group方法，可以获取子模式所匹配的内容，其参数有两种类型
    # int：从左往右开始计数：1代表第一个括号 2代表第二个括号 0代表整个模式匹配的字符串
    # string：?P<...>中的...，通过
    print('整数部分', match.group('int'))
    # print('整数部分', match.group(1))
    print('小数部分', match.group('float'))
    # 当含有多个子模式时，下面方法返回一个元组，里面每一个元素对应一个模式所匹配的内容
    # 在定义模式的时候，加括号()和不加括号之间差别很大，注意区分
    # 加()：意味着创建一个子模式，调用groups方法时，对应返回结果中的一个元素
    print(match.groups())
else:
    print('no match')

# search方法和match方法的区别
pattern = 'c'
s = 'abcabc'
print('match', re.match(pattern, s))  # 不匹配，因为match方法从头开始匹配，一旦不满足，则停止匹配，返回Node
print('search', re.search(pattern, s))

# 使用sub方法
# 将一个字符串的某个内容插入到另外一个字符串
print(re.sub(r'def\s+([a-zA-Z_][a-zA-Z_0-9]*)\s*\(\s*\):',
             r'static PyObject*\npy_\1(void)\n{',
             'def myfunc():'))


# 将一个字符串的某个内容经过函数处理过后插入到另外一个字符串
def dashrepl(matchobj):
    if matchobj.group(0) == '-':
        return ' '
    else:
        return '-'


print(re.sub('-{1,2}', dashrepl, 'pro----gram-files'))

# 贪婪模式和非贪婪模式
pattern = [r'<.*>', r'<.*?>']  # 后者为非贪婪模式，一旦在目标中找到相应的匹配，即停止查找并且返回结果
s = '<a> b <c>'
for p in pattern:
    match = re.search(p, s)
    print('entire s', match.group(0))

# 匹配双引号里面的内容
pattern = r'([\',"])(?P<content>.*)([\',"])'
s = '"zhangshan"'
match = re.search(pattern, s)
if match:
    print(match.group(0))
    print('content:', match.group('content'))

# 开头字符为a或者b或者c时，后面紧接的abc才能完成匹配
pattern = r'(?<=a|b|c)abc'
strings = ['aabc', 'babc', 'dabc']
for s in strings:
    match = re.search(pattern, s)
    print(s, match)

# 开头字符为abc，后续字符不是.png时完成匹配
pattern = r'abc(?!.png)'
imgs = ['abc.png', 'abc.jpg', 'abc.jpeg']
for img in imgs:
    match = re.search(pattern, img)
    print(img, match)

# 匹配两个重复的abc字符串 \number，number表示重复的次数
pattern = r'(ab) \1'
s = 'ab ab'
print(re.search(pattern, s))

# group方法简单使用
m = re.match(r"(\w+) (\w+) (\w+)", "Isaac Newton physicist hello")  # 三个子模式
print(m.group(0))
print('groups', m.groups())  # 三个子模式，里面有三个元素
print(m.group(1))
print(m.group(2))
print(m.group(1, 2))

# (?P<name1>pattern1)：给pattern1模式命名为name1，其中?P<name1>不参与模式的匹配
m = re.match(r"(?P<first_name>\w+) (?P<last_name>\w+)", "Malcolm Reynolds")
print(m.group('first_name'))
print(m.group('last_name'))
# 调用m.groupdict()方法返回字典样式的结果
print('dictionary', m.groupdict())  # {'first_name': 'Malcolm', 'last_name': 'Reynolds'}

# 在一组混合字符中，找到其中所有的数字字符
s = 'hhh1jKk2dHf45fgf123ee'
pattern = r"(?i:[a-z]+)"  # (?i:....)忽略模式匹配的大小写
print(re.search(pattern, s))
# findall和split所获取的内容恰恰相反，互为补充
print('findall', re.findall(pattern, s))
numbers = re.split(pattern, s)
numbers = [ele for ele in numbers if ele != '']
print(numbers)

# This is useful if you want to match an arbitrary literal string
# that may have regular expression metacharacters in it
# 输出所有合法的字符
print(re.escape('http://www.python.org'))
legal_chars = string.ascii_lowercase + string.digits + "!#$%&'*+-.^_`|~:"
print('[%s]+' % re.escape(legal_chars))

# 将特殊字符转化为符合正则表达式语法规则的形式
operators = ['+', '-', '*', '/', '**']
print('|'.join(map(re.escape, sorted(operators, reverse=True))))

# 找到一个句子中所有的副词
# 同时标记它们的起始结束位置
# finditer返回一个可以迭代的结果，内容为模式所匹配的字符串信息
text = "He was carefully disguised but captured quickly by police."
for m in re.finditer(r"\w+ly", text):
    print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))