Python中正则表达式用法重点格式以这个为准_首看_各种问题

20210811

https://www.jb51.net/article/101258.htm
一.惰性模式的概念:

此模式和贪婪模式恰好相反，它尽可能少的匹配字符以满足正则表达式即可，例如:

var str="axxyyzbdkb"; 
console.log(str.match(/a.*b/));

以上代码是贪婪模式，于是能够匹配整个字符串，下面将其修改成惰性匹配模式:

var str="axxyyzbdkb"; 
console.log(str.match(/a.*?b/));

在这里插入图片描述
只取组里面的内容

20210803

[\u4e00-\u9fa5]
匹配中文

20201211

import re

fname = '2020-01-14_endometriosis_2020-01-01_UTF8.txt'
with open(fname, "r", encoding = 'utf-8') as f:
    abstracts = f.read()

str = abstracts
iList= re.findall(r"PMID: \d+ ",str)
print(len(iList)) # output: 6049，符合文档中文献的总篇数

iList= re.findall(r"PMID: \d+",str) # regex pattern中少一个空格
print(len(iList)) # output: 6050，结果比文档中文献总篇数多了一篇

统计字符串中元素的个数

20201124

中文输入法下的括号在正则下不需要转义

在这里插入图片描述
竖线不需要转义

在这里插入图片描述
小括号匹配需要加中括号

Python中正则表达式基础知识

一、正则表达式

　　1.使用正则表达式的动机

　　　　1. 文本处理已经成为计算机常见工作之一

　　　　2. 对文本内容的搜索，定位，提取是逻辑比较复杂的工作

　　　　3. 为了快速方便的解决上述问题，产生了正则表达式技术

　　2.定义：

　　　　即文本的高级匹配模式，提供搜索，替换等功能。其本质是由一系列字符和特殊符号构成的字串，这个字串即正则表达式。

　　3.原理：

　　　　通过普通字符和有特定含义的字符，来组成字符串，用以描述一定的字符串规则，比如：重复，位置等，来表达某类特定的字符串，进而匹配。

　　4.元字符使用：

　　　　1.普通字符--------匹配规则：每个普通字符匹配其对应的字符

　　　　　　e.g.

　　　　　　　　In : re.findall('ab',"abcdefabcd")

　　　　　　　　Out: ['ab', 'ab']

　　　　注意：正则表达式在python中也可以匹配中文

　　　　2.或关系(|)

　　　　　　元字符: |

　　　　　　匹配规则: 匹配 | 两侧任意的正则表达式即可

　　　　　　e.g.

　　　　　　　　In : re.findall('com|cn',"www.baidu.com/www.tmooc.cn")

　　　　　　　　Out: ['com', 'cn']

　　　　3.匹配单个字符

　　　　　　元字符： .

　　　　　　匹配规则：匹配除换行外的任意一个字符

　　　　　　e.g.

　　　　　　　　In : re.findall('张.丰',"张三丰,张四丰,张五丰")

　　　　　　　　Out: ['张三丰', '张四丰', '张五丰']

　　　　4.匹配字符集

　　　　　　元字符： [字符集]

　　　　　　匹配规则: 匹配字符集中的任意一个字符

　　　　　　表达形式:

　　　　　　　　　　[abc#!好] 表示 [] 中的任意一个字符

　　　　　　　　　　[0-9],[a-z],[A-Z] 表示区间内的任意一个字符

　　　　　　　　　　[_#?0-9a-z] 混合书写，一般区间表达写在后面

　　　　　　e.g.

　　　　　　　　In : re.findall('[aeiou]',"How are you!")

　　　　　　　　Out: ['o', 'a', 'e', 'o', 'u']

　　　　5.匹配字符集反集

　　　　　　元字符：[^字符集]

　　　　　　匹配规则：匹配除了字符集以外的任意一个字符

　　　　　　e.g.

　　　　　　　　In : re.findall('[^0-9]',"Use 007 port")

　　　　　　　　Out: ['U', 's', 'e', ' ', ' ', 'p', 'o', 'r', 't']

　　　　6.匹配字符串开始位置

　　　　　　元字符: ^

　　　　　　匹配规则：匹配目标字符串的开头位置

　　　　　　e.g.

　　　　　　　　In : re.findall('^Jame',"Jame,hello")

　　　　　　　　Out: ['Jame']

　　　　7.匹配字符串的结束位置

　　　　　　元字符: $

　　　　　　匹配规则: 匹配目标字符串的结尾位置

　　　　　　e.g.

　　　　　　　　In : re.findall('Jame$',"Hi,Jame")

　　　　　　　　Out: ['Jame']

　　　　　　规则技巧: ^ 和 $必然出现在正则表达式的开头和结尾处。如果两则同时出现，则中间的部分必须匹配整个目标字符串的全部内容------绝对匹配。

　　　　8.匹配字符重复

　　　　　　元字符: *

　　　　　　匹配规则：匹配前面的字符出现0次或多次

　　　　　　e.g.

　　　　　　　　In : re.findall('wo*',"wooooo~~w!")

　　　　　　　　Out: ['wooooo', 'w']

　　　　　　元字符：+

　　　　　　匹配规则：匹配前面的字符出现1次或多次

　　　　　　e.g.

　　　　　　　　In : re.findall('[A-Z][a-z]+',"Hello World")

　　　　　　　　Out: ['Hello', 'World']

　　　　　　元字符：?

　　　　　　匹配规则：匹配前面的字符出现0次或1次

　　　　　　e.g. 匹配整数

　　　　　　In [28]: re.findall('-?[0-9]+',"Jame,age:18, -26")

　　　　　　Out[28]: ['18', '-26']

　　　　　　元字符：{n}

　　　　　　匹配规则：匹配前面的字符出现n次

　　　　　　e.g. 匹配手机号码

　　　　　　　　In : re.findall('1[0-9]{10}',"Jame:13886495728")

　　　　　　　　Out: ['13886495728']

　　　　　　元字符：{m,n}

　　　　　　匹配规则：匹配前面的字符出现m-n次

　　　　　　e.g. 匹配qq号

　　　　　　　　In : re.findall('[1-9][0-9]{5,10}',"Baron:1259296994")

　　　　　　　　Out: ['1259296994']

　　　　9.匹配任意（非）数字字符

　　　　　　元字符： \d \D

　　　　　　匹配规则：\d 匹配任意数字字符，\D 匹配任意非数字字符

　　　　　　e.g. 匹配端口

　　　　　　　　In : re.findall('\d{1,5}',"Mysql: 3306, http:80")

　　　　　　　　Out: ['3306', '80']

　　　　10.匹配任意（非）普通字符

　　　　　　元字符： \w \W

　　　　　　匹配规则: \w 匹配普通字符，\W 匹配非普通字符

　　　　　　说明: 普通字符指数字，字母，下划线，汉字。

　　　　　　e.g.

　　　　　　　　In : re.findall('\w+',"server_port = 8888")

　　　　　　　　Out: ['server_port', '8888']

　　　　11.匹配任意（非）空字符

　　　　　　元字符： \s \S

　　　　　　匹配规则: \s 匹配空字符，\S 匹配非空字符

　　　　　　说明：空字符指空格 \r \n \t \v \f 字符

　　　　　　e.g.

　　　　　　　　In : re.findall('\w+\s+\w+',"hello world")

　　　　　　　　Out: ['hello world']

　　　　12.匹配开头结尾位置

　　　　　　元字符： \A \Z

　　　　　　匹配规则： \A 表示开头位置，\Z 表示结尾位置

　　　　13.匹配（非）单词的边界位置

　　　　　　元字符： \b \B

　　　　　　匹配规则： \b 表示单词边界，\B 表示非单词边界

　　　　　　说明：单词边界指数字字母(汉字)下划线与其他字符的交界位置。

　　　　　　e.g.

　　　　　　　　In : re.findall(r'\bis\b',"This is a test.")

　　　　　　　　Out: ['is']

　　5.对元字符分类：

　　6.正则表达式的转义

　　　　1.如果使用正则表达式匹配特殊字符则需要加 \ 表示转义。

　　　　　　特殊字符: . * + ? ^ $ [] () {} | \

　　　　　　e.g. 匹配特殊字符 . 时使用 \. 表示本身含义

　　　　　　　　In : re.findall('-?\d+\.?\d*',"123,-123,1.23,-1.23")

　　　　　　　　Out: ['123', '-123', '1.23', '-1.23']

　　　　2. 在编程语言中，常使用原生字符串书写正则表达式避免多重转义的麻烦。

　　　　　　（在这里，正则表达式需要转义，书写成python字符串格式也需要转义，因此双重转义，为避免混乱，对python层面的转义用原生字符串书写）

　　　　　　　　python字符串 -------------> 正则 --------> 目标字符串

　　　　　　　　"\\$\\d+" 　　　解析为　 \$\d+ 匹配 "$100"

　　　　　　　　"\\$\\d+" 　　等同于　　 r"\$\d+"

　　7.贪婪模式和非贪婪模式

　　　　1. 定义

　　　　　　　　贪婪模式: 默认情况下，匹配重复的元字符总是尽可能多的向后匹配内容。比如: * + ? {m,n}

　　　　　　　　非贪婪模式(懒惰模式): 让匹配重复的元字符尽可能少的向后匹配内容。

　　　　　　注：两者的前提是正则表达式条件必须整体满足时，才能谈贪婪和非贪婪

　　　　2. 贪婪模式转换为非贪婪模式

　　　　　　在匹配重复元字符后加 '?' 号即可

　　　　　　　　　　* : *?

　　　　　　　　　　+ : +?

　　　　　　　　　　? : ??

　　　　　　　　　　{m,n} : {m,n}?2019/4/25 RE

　　　　　　e.g.

　　　　　　　　In : re.findall(r'$.+?$',"(abcd)efgh(higk)")

　　　　　　　　Out: ['(abcd)', '(higk)']

　　8.正则表达式分组

　　　　1. 定义

　　　　　　在正则表达式中，以()建立正则表达式的内部分组，子组是正则表达式的一部分，可以作为内部整体操作对象。

　　　　2. 作用

　　　　　　1.可以被作为整体操作，改变元字符的操作对象

　　　　　　　　e.g. 改变 +号重复的对象

　　　　　　　　　　In : re.search(r'(ab)+',"ababababab").group()

　　　　　　　　　　Out: 'ababababab'

　　　　　　　　e.g. 改变 |号操作对象

　　　　　　　　　　In : re.search(r'(王|李)\w{1,3}',"王者荣耀").group()

　　　　　　　　　　Out: '王者荣耀'

　　　　　　2.可以通过编程语言某些接口获取匹配内容中，子组对应的内容部分

　　　　　　　　e.g. 获取url协议类型

　　　　　　　　　　re.search(r'(https|http|ftp|file)://\S+',"https://www.baidu.com").group(1)

　　　　3. 捕获组

　　　　　　可以给正则表达式的子组起一个名字，表达该子组的意义。这种有名称的子组即为捕获组。

　　　　　　格式： (?Ppattern)

　　　　　　e.g. 给子组命名为 "pig"

　　　　　　　　In : re.search(r'(?Pab)+',"ababababab").group('pig')

　　　　　　　　Out: 'ab'

　　　　4. 注意事项

　　　　　　一个正则表达式中可以包含多个子组

　　　　　　子组可以嵌套，但是不要重叠或者嵌套结构复杂

　　　　　　子组序列号一般从外到内，从左到右计数（如下图，序号表示先后顺序）

　　9.正则表达式匹配原则

　　　　1. 正确性,能够正确的匹配出目标字符串.

　　　　2. 排他性,除了目标字符串之外尽可能少的匹配其他内容.

　　　　3. 全面性,尽可能考虑到目标字符串的所有情况,不遗漏.

二、Python中 re模块使用

　　1.re模块相关函数：

　　　　regex = compile(pattern,flags = 0)

　　　　　　功能: 生产正则表达式对象

　　　　　　参数: pattern 正则表达式

　　　　　　flags 功能标志位,扩展正则表达式的匹配

　　　　　　返回值: 正则表达式对象

　　　　re.findall(pattern,string,flags = 0)

　　　　　　功能: 根据正则表达式匹配目标字符串内容

　　　　　　参数: pattern 正则表达式

　　　　　　string 目标字符串

　　　　　　flags 功能标志位,扩展正则表达式的匹配

　　　　　　返回值: 匹配到的内容列表,如果正则表达式有子组则只能获取到子组对应的内容

　　　　regex.findall(string,pos,endpos)

　　　　　　功能: 根据正则表达式匹配目标字符串内容

　　　　　　参数: string 目标字符串

　　　　　　pos 截取目标字符串的开始匹配位置

　　　　　　endpos 截取目标字符串的结束匹配位置

　　　　　　返回值: 匹配到的内容列表,如果正则表达式有子组则只能获取到子组对应的内容

　　　　 ![在这里插入图片描述](https://img-blog.csdnimg.cn/2020112414205046.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2t5bGUxMzE0NjA4,size_16,color_FFFFFF,t_70#pic_center) re.split(pattern,string,flags = 0) 　　　　　　功能: 使用正则表达式匹配内容,切割目标字符串　　　　　　参数: pattern 正则表达式　　　　　　string 目标字符串　　　　　　flags 功能标志位,扩展正则表达式的匹配　　　　　　返回值: 切割后的内容列表 ![在这里插入图片描述](https://img-blog.csdnimg.cn/20201124142111729.png#pic_center) re.sub(pattern,replace,string,max,flags = 0) 　　　　　　功能: 使用一个字符串替换正则表达式匹配到的内容　　　　　　参数: pattern 正则表达式　　　　　　replace 替换的字符串　　　　　　string 目标字符串　　　　　　max 最多替换几处,默认替换全部　　　　　　flags 功能标志位,扩展正则表达式的匹配　　　　　　返回值: 替换后的字符串

在这里插入图片描述
re.subn(pattern,replace,string,max,flags = 0)
　　　　　　功能: 使用一个字符串替换正则表达式匹配到的内容
　　　　　　参数: pattern 正则表达式
　　　　　　replace 替换的字符串
　　　　　　string 目标字符串
　　　　　　max 最多替换几处,默认替换全部
　　　　　　flags 功能标志位,扩展正则表达式的匹配
　　　　　　返回值: 替换后的字符串和替换了几处
在这里插入图片描述
re.finditer(pattern,string,flags = 0)
　　　　　　功能: 根据正则表达式匹配目标字符串内容
　　　　　　参数: pattern 正则表达式
　　　　　　string 目标字符串
　　　　　　flags 功能标志位,扩展正则表达式的匹配
　　　　　　返回值: 匹配结果的迭代器（迭代器用一个取一个，节省内存资源）
在这里插入图片描述
re.fullmatch(pattern,string,flags=0)
　　　　　　功能：完全匹配某个目标字符串
　　　　　　参数：pattern 正则
　　　　　　string 目标字符串
　　　　　　返回值：匹配内容match object
　　　　　　注：该函数可用于密码验证：密码只允许字母和数字，如果返回值为None，则密码不符合规范，含有数字和字母以外的字符

在这里插入图片描述

re.match(pattern,string,flags=0)
　　　　　　功能：匹配某个目标字符串开始位置
　　　　　　参数：pattern 正则
　　　　　　string 目标字符串
　　　　　　返回值：匹配内容match object

re.search(pattern,string,flags=0)
　　　　　　功能：匹配目标字符串第一个符合内容
　　　　　　参数：pattern 正则
　　　　　　string 目标字符串
　　　　　　返回值：匹配内容match object
在这里插入图片描述
compile对象属性
　　　　　　【1】 flags ： flags值--------注：不要跟参数flags混淆了
　　　　　　【2】 pattern ：正则表达式
　　　　　　【3】 groups ：子组数量
　　　　　　【4】 groupindex ：捕获组名与组序号的字典

2.match对象的属性方法
　　　　
　　　　1. 属性变量
　　　　　　pos 匹配的目标字符串开始位置
　　　　　　endpos 匹配的目标字符串结束位置
　　　　　　re 正则表达式
　　　　　　string 目标字符串
　　　　　　lastgroup 最后一组的名称
　　　　　　lastindex 最后一组的序号
在这里插入图片描述
　2. 属性方法
　　　　　　span() 获取匹配内容的起止位置
　　　　　　start() 获取匹配内容的开始位置
　　　　　　end() 获取匹配内容的结束位置
　　　　　　groupdict() 获取捕获组字典，组名为键，对应内容为值
　　　　　　groups() 获取子组对应内容
　　　　　　group(n = 0)
　　　　　　　　功能：获取match对象匹配内容
　　　　　　　　参数：默认为0表示获取整个match对象内容，如果是序列号或者组名则表示获取对应子组内容
　　　　　　　　返回值：匹配字符串
在这里插入图片描述

3.flags参数
　　　　
　　　　1. 使用函数：re模块调用的匹配函数。如：re.compile,re.findall,re.search…

2.作用：扩展丰富正则表达式的匹配功能
　　　　
　　　　3.常用flag
　　　　　　A == ASCII 元字符只能匹配ascii码
在这里插入图片描述
　I == IGNORECASE 匹配忽略字母大小写

　S == DOTALL 使 . 可以匹配换行

M == MULTILINE 使 ^ $可以匹配每一行的开头结尾位置