Python正则表达式详解 re

xzw96

于 2021-07-24 12:55:21 发布

阅读量228

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/qq_40630902/article/details/119055823

版权

python 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

本文详细介绍了Python正则表达式的概念、特殊符号和方法，通过实例演示如何使用re模块进行模式匹配，并涵盖了常见正则表达式字符集、匹配规则和实用函数。适合初学者和进阶者深入理解正则在字符串操作中的应用。

摘要由CSDN通过智能技术生成

Python正则表达式详解 re

1. 正则表达式，又称规则表达式（Regular Expression），是使用单个字符串来描述、匹配某个句法规则的字符串，常被用来检索、替换那些符合某个模式（规则）的文本。

2. 一个正则表达式通常被称为一个模式（pattern），是用来描述或者匹配一系列匹配某个句法规则的字符串。例如Polish、Spanish和 Swedish 这三个字符串，都可以由(Pol|Span|Swed)ish 这个模式来描述。

3.例子

import re

str1 = '<span>abcd<//pan><span>abcdef</span> ' 	# 待匹配的字符串
pattern ='<span>.*<//p'							# 设置的匹配规则(查找的字符串：<span>  正则特殊字符：.* 查找的字符：<//p  )
p = re.compile(pattern)							# 对匹配规则用re模块编译
match_out = re.search(p, str1)						# 在字符串str1中按照pattern句法规则寻找要求的文本
print(match_out)
print(type(match_out))								
print(match_out.group(0))				


>>>		<re.Match object; span=(0, 14), match='<span>abcd<//p'>
>>>		<class 're.Match'>
>>> 	<span>abcd<//p

4.涉及的正则表达式特殊符号和方法及其含义

特殊符号	含义
.	匹配除“\r” “\n”之外的任何单个字符。要匹配包括“\r” “\n”在内的任何字符，请使用“(.\|\r\|\n)” 的模式
*	匹配前面的子表达式零次或多次。例如“zo”能匹配“z” “zo”以及“zoo”，“”等效于“{0,}”
方法	含义
compile()	编译正则表达式模式，返回一个对象的模式
search()	在字符串内查找模式匹配，只要找到第一个匹配然后返回，如果字符串没有匹配，则返回“None”

5. 再次验证

import re
str1= 'china-will-be-no1'
pattern ='ina.*be'
p = re.compile(pattern)
match_out = re.search(p, str1)
print(type(match_out))
print(match_out)
print(match_out.group(0))

>>>		<class 're.Match'>
>>>		<re.Match object; span=(2, 13), match='ina-will-be'>
>>>		ina-will-be

6.正则表达式常用的特殊字符及含义

符号	描述
\	将下一个字符标记为一个特殊字符、一个原义字符(Identity Escape,有 “^” “$” “(” “)” “*” “+” “{” "
^	匹配输入字符串的开始位置。如果设置了正则表达式的多行属性，“^”也可以匹配“\n”或“\r”之后的位置
$	匹配输入字符串的结束位置。如果设置了正则表达式的多行属性，“$”也可以匹配“\n”或“\r”之前的位置
*	匹配前面的子表达式零次或多次。例如“zo”能匹配“z” “zo”以及“zoo”，“”等效于“{0,}”
+	匹配前面的子表达式一次或多次。例如“zo+”能匹配“zo”以及“zoo”，但不能匹配“z”，“+”等效于"{1,}”
?	匹配前面的子表达式零次或一次。例如“do(es)?”可以匹配 “do”或 “does”中的“do”，“?”等效于 “{0,1}”
{n}	n 是一个非负整数，匹配确定的 n 次。例如“o{2}”不能匹配“Bob”中的“o”，但是能匹配“food” 中的两个 o
{n,}	n 是一个非负整数，至少匹配n次。例如“o{2,}”不能匹配“Bob”中的“o”，但能匹配“foooood”中的所有o, 等效于“o+”，“o{0,}”则等效于“o*”
{n,m}	m 和 n 均为非负整数，其中 n＜=m。最少匹配 n 次且最多匹配 m 次。例如“o{1,3}”将匹配“fooooood" 中的前三个“o”，“o{0,l}”等效于“0?”。注意在逗号和两个数之间不能有空格
.	匹配除“\r” “\n”之外的任何单个字符。要匹配包括“\r” “\n”在内的任何字符，请使用“(.
(?:pattem)	匹配模式但不获取匹配的子字符串，也就是说这是一个非获取匹配，不存储匹配的子字符串用于向后引用。这在使用竖线字符来组合一个模式的各个部分时很有用。例如“industr(?:y
(?=pattem)	正向肯定断言，在任何匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配。例如 “Windows(?=95
[xyz]	字符集合，匹配所包含的任意一个字符。例如“[ab可”可以匹配“plain”中的“a”。特殊字符仅有反斜线“\”保持特殊含义，用于转义字符。其他特殊字符如星号、加号、各种括号等均作为普通字符。脱字符“^”如果出现在首位则表示负值字符集合；如果出现在字符串中间就仅作为普通字符。连字符“-”如果出现在字符串中间表示字符范围描述；如果出现在首位(或末尾)则仅作为普通字符。右方括号应转义出现，也可以作为首位字符出现
[a-z]	字符范围，匹配指定范围内的任意字符。例如“[a-z]”可以匹配“a”到“z”范围内的任意小写字母字符
\b	匹配一个单词边界，也就是指单词和空格间的位置。例如“er\b”可以匹配“never”中的“er”，但不匹配“verb”中的“er”
\B	匹配非单词边界。例如“er\B”能匹配“verb”中的“er”，但不能匹配“never”中的“er”
\cx	匹配控制字符。x 必须为 A(a) 到 Z(z)。否则，将 c 视为一个原义的“c”字符。控制字符的值等于 x 的值，但最低为 5 比特(即对 3210 进制的余数)。例如“\cM”匹配一个“Control-M”或回车符。“\ca” 等效于 “\u0001”，“\cb” 等效于 “\u0002”
\d	匹配一个数字字符，等效于"[0-9]”。注意 Unicode 正则表达式会匹配全角数字字符
\D	匹配一个非数字字符，等效于“[^0-9]”
\f	匹配一个换页符，等效于“\x0c 和 \cL”
\n	匹配一个换行符，等效于“\x0a 和 \cJ”
\r	匹配一个回车符，等效于“\x0d 和 \cM”
\s	匹配任何空白字符，包括空格、制表符、换页符等，等效于“[\f\n\r\t\v]”。注意 Unicode 正则表达式会匹配全角空格符
\S	匹配任何非空白字符，等效于“[^\f\n\r\t\v]”
\t	匹配一个制表符，等效于“\x09 和 \c1”
\v	匹配一个垂直制表符，等效于“\x0b 和 \cK”
\w	匹配包括下画线的任何单词字符，等效于"[A-Za-z0-9_]”。注意 Unicode 正则表达式会匹配中文字符
\W	匹配任何非单词字符，等效于“[^A-Za-z0-9_]”
\n	标识一个八进制数转义值或一个向后引用。如果“\n”之前至少 n 个获取的子表达式，则 n 为向后引用。否则，如果 n 为八进制数字“(0-7)”，则 n 为一个八进制数转义值

优先级	符号
最高	“\”
高	“()” “(?\：)” “(?=)” “[]”
中	“*”“+” “?”“{n}” “{n,}” “{n,m}”
低	“^” “$” “中介字符”
次最低	串接，即相邻字符连接在一起
最低	“\|”

7.正则表达式常用的方法

方法	描述
compile()	编译正则表达式模式，返回一个对象的模式
match()	决定正则表达式对象是否在字符串最开始的位置匹配。注意：该方法不是完全匹配。当模式结束时若原字符串还有剩余字符，仍然视为成功。想要完全匹配，可以在表达式末尾加上边界匹配符“$”
search()	在字符串内查找模式匹配，只要找到第一个匹配然后返回，如果字符串没有匹配，则返回“None”
findall()	遍历匹配，可以获取字符串中所有匹配的字符串，返回一个列表
finditer()	返回一个顺序访问每一个匹配结果的迭代器，该方法将找到匹配正则表达式的所有子串
split()	按照能够匹配的子串将原字符串分割后返回列表
sub()	替换原字符串中每一个匹配的子串后返回替换后的字符串
subn()	返回“sub()”方法执行后的替换次数
flags()	正则表达式编译时设置的标志
pattem()	正则表达式编译时使用的字符串

8.力扣题实战

字符串转换整数 (atoi)
请你来实现一个 myAtoi(string s) 函数，使其能将字符串转换成一个 32 位有符号整数（类似 C/C++ 中的 atoi 函数）。

示例 1：

输入：s = “42”
输出：42
解释：加粗的字符串为已经读入的字符，插入符号是当前读取的字符。
第 1 步：“42”（当前没有读入字符，因为没有前导空格）
^
第 2 步：“42”（当前没有读入字符，因为这里不存在 ‘-’ 或者 ‘+’）
^
第 3 步：“42”（读入 “42”）
^
解析得到整数 42 。
由于 “42” 在范围 [-231, 231 - 1] 内，最终结果为 42 。

import re
class Solution:
    def myAtoi(self, str: str) -> int:
        INT_MAX = 2147483647    
        INT_MIN = -2147483648
        str = str.lstrip()      #清除左边多余的空格
        num_re = re.compile(r'^[\+\-]?\d+')   #设置正则规则
        num = num_re.findall(str)   #查找匹配的内容
        num = int(*num) #由于返回的是个列表，解包并且转换成整数
        return max(min(num,INT_MAX),INT_MIN)    #返回值

一行实现

class Solution:
    def myAtoi(self, s: str) -> int:
        return max(min(int(*re.findall('^[\+\-]?\d+', s.lstrip())), 2**31 - 1), -2**31)

9.总结

正则表达式比较简单直接，暴力，有效
需要非常熟悉re特殊字符的用法和re方法的使用
处理字符串很方便快捷
按照要求处理字符串，能有算法实现就用算法实现，re模块用的熟练也可以直接用

10. 参考链接

http://c.biancheng.net/view/7768.html
https://leetcode-cn.com/problems/string-to-integer-atoi/solution/python-1xing-zheng-ze-biao-da-shi-by-knifezhu/
如有侵权，联系删除，谢谢。

xzw96

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python正则表达式详解 re

Python正则表达式详解 re1. 正则表达式，又称规则表达式（Regular Expression），是使用单个字符串来描述、匹配某个句法规则的字符串，常被用来检索、替换那些符合某个模式（规则）的文本。2. 一个正则表达式通常被称为一个模式（pattern），是用来描述或者匹配一系列匹配某个句法规则的字符串。例如Polish、Spanish和 Swedish 这三个字符串，都可以由(Pol|Span|Swed)ish 这个模式来描述。3.例子import restr1 = '<spa
复制链接

扫一扫

专栏目录