正则表达式

天天都不睡觉

于 2019-08-07 18:44:12 发布

阅读量128

点赞数

本文链接：https://blog.csdn.net/a593504017/article/details/98772734

版权

正则表达式

正则表达式，又称规则表达式**。**（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

给定的字符串是否符合正则表达式的过滤逻辑（匹配）
通过正则表达式，从字符串中获得完美想要的特定的部分

使用场景

爬虫
数据挖掘和分析

因为Python是一门高级语言，程序员在使用时无需关心内存的分配和释放，因为此工作都是交给Python解释器来执行，所以，析构函数的调用是由解释器在进行垃圾回收时自动触发执行的。

在Python中使用正则需要导入re包

import re

首先我们来看两个例子来体验一下正则表达式的威力吧：

### 引入案例1

比如，已知一个列表：

li = [“Chinese”, “China”, “English”, “Britain”, “Canada”, “New Zealand”]

找出以Ch开头的字串。

# 法1
li = ["Chinese", "China", "English", "Britain", "Canada", "New Zealand"]
lt = []
for i in li:
	if i[0:2] == "Ch":
		lt.append(i)
print(lt)
# 法2
li = ["Chinese", "China", "English", "Britain", "Canada", "New Zealand"]
print([i for i in li if i[0:2]=="Ch"])

# 在a中，提取出23 5 67
import  re
a='ab23fd5g67'
m = r'[0-9]+'
num = re.findall(m,a)
print(num)
#23 5 67

python 正则表达式的基础

单字符匹配规则

字符	功能
.	匹配任意一个字符（除了\n）
[]	匹配[]中列举的字符
\d	匹配数字(0-9)
\D	匹配非数字（\d取反）
\w	匹配字，A-Z，a-z,0-9,_
\W	\w取反
\s	匹配空白字符，比如空格 \tab
\S	取反

re.math(pattern,string,flags=0 )

作用：从字符串的开头匹配一个模式
匹配成功返回一个匹配成功的对象
否则，返回None

参数说明：

pattern：匹配的正则表达式
string：要匹配的字符串
flags：标志位，用于控制正则表达式非匹配方式。比如是否匹配多行，是否区分大小写。
re.group（[group1,…]字符串或者元组
- 作用：获得一个或者多个分组截获的字符串
- 指定多个参数时就会以元组形式返回
- group1可以使用编号，也可以使用别名
- 编号0代表匹配整个子串，默认返回group（0）
- 如果没有截获字符串，返回None。
- 如果截获多次的组，返回最后一次截获的子串。
re.groups（[default=None]）tuple
- 作用：以元组形式返回全部分组截获的字符串。类似调用re.group（1,2,3…，last）
- 如果没有截获字符串的组，默认返回None

demo(.)：

import re
m = re.match('.','\n')  # \n报错
print(m.group())
m = re.match('.','s')  # match 匹配开头的
print(m.group()) #s
m = re.match('.','city')  # match 匹配开头的
print(m.group()) #c

demo([ ]):

m = re.match('[Cc]','city')
print(m.group()) #c
m = re.match('[Cc]','City')  # match 匹配开头的
print(m.group()) #C
m = re.match('[0123456789]', '595') 
print(m.group())
m = re.match('[0-9]', '595')  # [0123456789]<--->[0-9]
print(m.group())

demo（\d,\D):

m = re.match(r'\D', 'i234')
print(m.group()) #i
m = re.match(r'\d', '234')
print(m.group()) #2

demo(\w,\W):

m = re.match(r'\w', 'we234')
print(m.group()) #w
m = re.match(r'\w', '234')
print(m.group()) #2
m = re.match(r'\W', ' 234')
print(m.group()) #空格

demo（\s,\S):

m = re.match(r'\s', ' 234')
print(m.group()) # 空格
m = re.match(r'\S', 'w234')
print(m.group()) #w

数量匹配规则

字符	功能
*	匹配前一个字符出现0次多次或者无限次，可有可无，可多可少
+	匹配前一个字符出现1次多次或者无限次，直到出现一次
？	匹配前一个字符出现1次或者0次，要么有1次，要么没有
{m}	匹配前一个字符出现m次
{m，}	匹配前一个字符至少出现m次
{m，n}	匹配前一个字符出现m到n次

demo（*）：

m = re.match('[A-Z][a-z]*', 'SccitySAAsss')
print(m.group()) #Sccity
m = re.match('[A-Z]*[a-z]', 'SSSSSSccitySAAsss')
print(m.group())#SSSSSSc

demo（+）：

m = re.match('[A-Z][a-z]+', 'Sccity')
print(m.group()) #Sccity

pattren = input('输入匹配规则')
sr = input('输入匹配的字符串')
m=re.match(pattren,sr)
print(m.group())
#输入匹配规则1[35678]\d{9}
#输入匹配的字符串189677200162626264464
#18967720016

表示边界

字符	功能
^	匹配字符串开头
$	匹配这字符的结尾
\b	匹配一个单词的边界 boundary
\B	匹配非单词边界

匹配分组

字符	功能
\|
(ab)	将括号中的字符作为一个分组
\num	引用分组num匹配到的字符串
(?p)	分组起别名
(?p=name)	引用别名为name分组匹配到的字符串

str = '<h1>hello world!</h1>'
pat = '<h1>(.*)</h1>'
res =re.match(pat,str)
print(res.group())
print(res.group(1))
print(res.groups())
#<h1>hello world!</h1>
#hello world!
#('hello world!',)

re.search(pattern,str,flags=0)

作用：扫描整个字符串，返回第一次成功匹配的对象
如果匹配失败，返回None
参数：
- pattern：匹配的正则表达式
- string：要匹配的字符串
- flags：标志位，用于控制正则表达式非匹配方式。比如是否匹配多行，是否区分大小写。

天天都不睡觉

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
正则表达式

正则表达式正则表达式，又称规则表达式**。**（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。给定的字符串是否符合正则表达式的过滤逻辑（匹配）通过正则表达式，从字符串中获得完美想要的特定的部分使用场景爬虫数据挖掘和分析因为Python是一门高级语...
复制链接

扫一扫