python正则

正则基本用法

import re
result = re.match(r"正则","匹配字符串")   从开始匹配  成功返回 `match object`    == re.search(r'^正则','匹配字符串')
result = re.search(r'正则','匹配字符串')  从中找到符号的字符串  成功返回 `match object`
result.group()  若匹配成功取出匹配到的字符串
注:需要找字符串中的特点

规则

  1. 元字符 操作 —>单字符
    . : 除了\n之外的任意字符
    \d : 数字
    \D : 非数字

    \w : 匹配单词字符,即a-z、A-Z、0-9、_

    • 在python3 中是支持中文 re.match(r"\w","一",re.U) 参数3是默认值 U是那个utf表;
    • 让其不支持中文re.match(r"\w","一",re.A) A是asc码

    \W : 非单词字符

    \s : 匹配空白字符
    \S : 匹配非空字符

    [] : 匹配[]中列举的字符

  2. 量词 即匹配多少个字符
    * :匹配前一个字符出现0次或者无限次,即可有可无
    + :匹配前一个字符出现1次或者无限次,即至少1次
    ?:匹配前一个字符出现1次或者0次,即要么有1次,要么没有
    {num}: 匹配前一个字符出现m次
    {num1,num2}:匹配前一个字符出现m到n次

  3. 匹配开头结尾
    ^ : 匹配字符串开头
    $ : 匹配字符串结尾

    eg: 匹配0-99 08 不符合 有两位匹配两位 r'^[1-9]?\d$'

  4. 匹配分组 取出匹配成功的部分字符串
    | : 匹配左右任意一个表达式
    (ab) : 将括号中字符作为一个分组
    \num : 引用
    (?P<name>) : 分组起别名
    (?P=name) : 引用别名为name分组匹配到的字符串

    eg : 匹配0-100的数值 r'[1-9]?\d$|100'

小结:

  • 一般公式r"元字符[量词]...."
    eg: 匹配5个数字
import re

ret = re.match(r'\d{5}', '12345678901')
print(ret.group())
  • 加入分组
    eg:取邮箱类型163
import re

ret = re.match(r'\w{4,20}@(163)\.com', 'aaaa@163.com')
print(ret.group(1))

扩展

  • search
"""匹配出文章阅读的次数"""
import re

ret = re.search(r"\d+", "阅读次数为 9999")
print(ret.group()) # 9999
  • findall
"""统计出python、c、c++相应文章阅读的次数"""
import re

ret = re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345")
print(ret)  # ['9999', '7890', '12345']
  • sub
"""将匹配到的阅读次数加1"""
import re

# 方式一
ret = re.sub(r"\d+", '998', "python = 997")
print(ret)


# 方式二
def add(temp):
    strNum = temp.group()
    num = int(strNum) + 1
    return str(num)

ret = re.sub(r"\d+", add, "python = 997")
print(ret)    #python = 998

ret = re.sub(r"\d+", add, "python = 99")
print(ret)    #python = 100
  • split
import re

ret = re.split(r":| ","info:xiaoZhang 33 shandong")
print(ret)   # ['info', 'xiaoZhang', '33', 'shandong']

python贪婪和非贪婪(重要)

  • python里的量词默认是贪婪的,总是尝试匹配尽可能多的字符;
  • 在量词后面加?,使贪婪变成非贪婪(满足条件尽可能少的字符)
import re

ret = re.match(r'\d+', '1234567')
ret1 = re.match(r'\d+?', '1234567')

print(ret.group())   # 1234567
print(ret1.group())  # 1
  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值