正则表达式

最新推荐文章于 2024-09-26 16:53:56 发布

cityzy

最新推荐文章于 2024-09-26 16:53:56 发布

阅读量130

点赞数

本文链接：https://blog.csdn.net/cityzy/article/details/98957071

版权

正则表达式

正则表达式，又称规则表达式。（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

给定的字符串是否符合正则表达式的过滤逻辑(匹配)
通过正则表达式，从字符串中获得我们想要的特定的部分。

使用场景：

爬虫
数据挖掘和分析

在Python中使用正则需要导入re包

import re

首先我们来看两个例子来体验一下正则表达式的威力吧：

假如存在a=‘av23sd4sf56fw’，从中提取23,4,56，如何实现？

import re
a='av23sd4sf56fw'
m=r'[0-9]+'
num=re.findall(m,a)
print(num)

再比如，已知一个列表：

li = [“Chinese”, “China”, “English”, “Britain”, “Canada”, “New Zealand”]

找出以Ch开头的字串，使用原来的方法，如下：

li = ["Chinese", "China", "English", "Britain", "Canada", "New Zealand"]
print([i for i in li if i[0:2]=="Ch"])

python正则表达式的基础

在Python 术语中，主要有两种方法完成模式匹配：“搜索”（searching），即在字符串任意部分中搜索匹配的模式；而“匹配”（matching）是指判断一个字符串能否从起始处全部或者部分地匹配某个模式。搜索通过search()函数或方法来实现，而匹配通过调用match()函数或方法实现。总之，当涉及模式时，全部使用术语“匹配”；我们按照Python如何完成模式匹配的方式来区分“搜索”和“匹配”。

re.match(pattern,string,flags=0)
- 作用：从字符串的开头开始匹配一个模式
  - 匹配成功，返回一个匹配成功的对象
  - 否则，返回None
- 参数说明
  - pattern:匹配的正则表达式
  - string：要匹配的字符串
  - flags:标志位，用于控制正则表达式的匹配方式。比如是否匹配多行，是否区分大小写。
re.group([group1,…]) 字符串或者元组
- 作用：获得一个或者多个分组截取的字符串
- 指定多个参数时就会以元组形式返回
- group1可以使用编号，也可以使用别名
- 编号0代表匹配整个子串，默认返回group(0)
- 如果没有截取字符串，返回None
- 截了多次的组，返回最后一次截取的子串
re.groups([default=None]) tuple
- 作用：以元组形式返回全部分组截获的字符串。类似调用re.group（1,2,3,…,last)
- 如果没有截获字符串的组，默认返回None
re.findall(pattern,string,flags=0)
- 作用：获取字符串中所有匹配的子串，并以列表形式返回。
re.finditer(pattern,string,flags=0)
- 作用：获取字符串中所有匹配的子串，并以迭代器形式返回
re.search(pattern,string,flags=0)
- 作用：扫描整个字符串，返回第一次成功匹配的对象
- 如果匹配失败，返回None。

re.match()和re.search()的区别

re.match()从字符串开头开始匹配，如果匹配失败，None。
re.search()匹配整个字符串，直到找到一个匹配，如果匹配失败，None。

单字符匹配

字符	功能
.	匹配任意一个字符（除了\n）
[]	匹配[]列表的字符
\d	匹配数字(0-9)
\D	\d取反（匹配非数字）
\w	匹配字,A-Z,a-z,0-9,_ ,貌似汉字也可以
\W	\w取反
\s	匹配空白字符，比如空格，\tab,\n
\S	\s取反

import re

m=re.match('.','Asda')
print(m.group())#A
m=re.match('.','\n')
print(m.group())#报错
m=re.match('[aA]','Asda')
print(m.group())#A
m=re.match('[aA]','asda')
print(m.group())#a
m=re.match('[0-9]','1')
print(m.group())#1
m=re.match('[0123456789]','1')
print(m.group())#1
m=re.match('\d','1')
print(m.group())#1
m=re.match('\d*','465616316491')
print(m.group())#465616316491
m=re.match('\s\d*','\t12556')
print(m.group())#	12556

数量匹配规则

字符	功能
*	匹配前一个字符出现0次多次或者无限次，可有可无，可多可少
+	匹配前一个字符出现1次多次或者无限次，直到出现一次
？	匹配前一个字符出现1次或者0次，要么有一次，要么没有
{m}	匹配前一个字符出现m次
{m,}	匹配前一个字符至少出现m次
{m,n}	匹配前一个字符出现m到n次

表示边界

字符	功能
^	匹配字符串的开头
$	匹配字符串的结尾
\b	匹配一个单词的边界
\B	匹配非单词边界（\b取反）

匹配分组

字符	功能
\|	匹配左右任意一个表达式
(ab)	将括号中的字符作为一个分组
\num	引用分组num匹配到得到字符串
(？P)	分组起别名
(？P=name)	引用别名为name分组匹配到的字符串

str1='<h1>hello world!</h1>'
r1=r'<(.*)>(.*)</\1>'
m=re.match(r1,str1)
print(m.group(2))
str2 = "<span><h1>hello world!</h1></span>"
r2=r'<(.*)><(.*)>(.*)</\2></\1>'
m=re.match(r2,str2)
print(m.group(3))