正则表达式初步学习

黎京

于 2019-08-04 22:47:20 发布

阅读量122

点赞数

文章标签： Python

本文链接：https://blog.csdn.net/qq_34636310/article/details/98475847

版权

正则表达式

正则表达式，又称规则表达式**。**（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

给定的字符串是否符合正则表达式的过滤逻辑（匹配）
通过正则表达式，从字符串中获得我们想要的特定部分

使用场景

爬虫
数据挖掘和分析

在Python中使用正则需要导入re包

import re

首先我们来看两个例子来体验一下正则表达式的威力吧：

引入案例1

比如，已知一个列表：

li = [“Chinese”, “China”, “English”, “Britain”, “Canada”, “New Zealand”]

找出以Ch开头的字串。

# 法1
li = ["Chinese", "China", "English", "Britain", "Canada", "New Zealand"]
lt = []
for i in li:
	if i[0:2] == "Ch":
		lt.append(i)
print(lt)
# 法2
li = ["Chinese", "China", "English", "Britain", "Canada", "New Zealand"]
print([i for i in li if i[0:2]=="Ch"])

正则表达式

import re
sr = 'abc23ad56dff8as99'
m = r'[0-9]+'
num = re.findall(m, sr)
print(num)

['23', '56', '8', '99']

简单的字符串筛选列子：

sr = '<table><tr>hello world 18111234589<tr><tr><span>name:张三,tel:18711001111</span></tr></table>'
start = sr.find('<span>')
end = sr.rfind('</span>')
print(sr[start+len('<span>'):end])

当严格讨论与字符串中模式相关的正则表达式时，我们会用术语“匹配”（matching），指的是术语“模式匹配”（pattern-matching）。在Python 术语中，主要有两种方法完成模式匹配：“搜索”（searching），即在字符串任意部分中搜索匹配的模式；而“匹配”（matching）是指判断一个字符串能否从起始处全部或者部分地匹配某个模式。搜索通过search()函数或方法来实现，而匹配通过调用match()函数或方法实现。总之，当涉及模式时，全部使用术语“匹配”；我们按照Python如何完成模式匹配的方式来区分“搜索”和“匹配”。

Python正则表达式的基础

单字符匹配规则

字符	功能
.	匹配任意一个字符(除了\n)
[]	匹配[]中列举的字符
\d	匹配数字(0-9)
\D	匹配非数字(\d的取反)
\w	匹配字符，A-Z,a-z,0-9, _
\W	\w取反
\s	匹配空白字符，比如\tab
\S	匹配非空白字符，\s取反
[^abc]	匹配abc以外的所有字符

re.match(pattern, string, flag=0)
- 作用：从字符串的开头开始匹配一个模式
  - 匹配成功，返回一个匹配成功的对象
  - 否则，返回None
- 参数说明：
  - pattern:匹配的正则表达式
  - string：要匹配的字符串
  - flags：标志位，用于控制正则表达式的匹配方式。比如是否匹配多好，是否区分大小写
re.group([group1,…]) 字符串或者元组
- 作用：获得一个或者多个分组截获的字符串
- 指定多个参数时就会以元组形式返回
- group1可以使用编号，也可以使用别名
- 编号0代表匹配整个字符串
- 如果没有截获字符串，返回None
- 截获了多次的组，返回最后一次截获的子串
regroups([空]) tuple
- 作用：以元组形式返回全部分组截获的字符串。类似调用re.group(1,2,…,last)
- 如果没有截获字符串，返回None

单字符匹配规则

字符	功能
.	匹配任意一个字符(除了\n)
[]	匹配[]中列举的字符
\d	匹配数字(0-9)
\D	匹配非数字(\d的取反)
\w	匹配字符，A-Z,a-z,0-9, _
\W	\w取反
\s	匹配空白字符，比如\tab
\S	匹配非空白字符，\s取反

demo:

import re
m = re.match('[aA]','asd')  # [内 列举]
print(m.group())        #   a
m = re.match('[aA]','Asd')# [内 列举]
print(m.group())        #   A
m = re.match('.','bsd')   # 除了\n都行
print(m.group())        #   b
m = re.match('a','bsd')
print(m.group())        #报错 第一个不是a
m = re.match('.','\n')
print(m.group())        #报错 ， '.'不能匹配 \n
m = re.match('[0123456789]','6789bsd')
print(m.group())       #6
m = re.match('[0-9]','6789bsd')
print(m.group())      #6
m = re.match('\d','6789bsd')
print(m.group())        #6
m = re.match('\D','bsd')  #非数字
print(m.group())     # b   
m = re.match('\w','A666bsd')  #字符 _ 英文字母 数字
print(m.group())    # A
m = re.match('\W','\n666bsd')    #\w取反
print(m.group())     # \n
m = re.match('\s','\n666bsd') #空白
print(m.group())     
m = re.match('\S','666bsd')   #非空白
print(m.group())  # 6

数量匹配规则

字符	功能
*	匹配前一个字符出现0次多次或者无限次，可有可无可多可少
+	匹配前一个字符出现1次多次无限次，直到出现1次
？	匹配前一个字符出现1次或者0次，要么一次要么没有
{m}	匹配前一个字符出现m次
{m,}	匹配前一个字符至少出现m次
{m,n}	匹配前一个字符出现m到n次

表示边界

字符	功能
^	匹配字符串开头
$	匹配字符串结尾
\b	匹配一个单词的边界 boundary
\B	匹配非单词边界

匹配分组

字符	功能
\|	匹配左右任意一个表达式
(ab)	将括号内的字符作为一个分组
\num	引用分组num匹配到的字符串
(?p)	分组起别名
(?p=name)	引用别名为name分组匹配到的字符串

re.search(pattern, string, flags=0)
- 作用：扫描整个字符串，返回第一次成功匹配的对象
- 如果匹配失败，返回None
- 参数说明：
  - pattern:匹配的正则表达式
  - string：要匹配的字符串
  - flags：标志位，用于控制正则表达式的匹配方式。比如是否匹配多好，是否区分大小写
re.findall(pattern, string, flags=0)
- 作用：获取字符串所有匹配的子串，并以列表形式返回
re.finditer(pattern, string, flags=0)
- 作用：获取字符串所匹配的子串，并返回一个迭代器

re.match()和re.search()的区别

re.match() 匹配字符串的开头，匹配失败None
re.search()匹配整个字符串，知道找到一个陪陪，如果匹配失败，None

黎京

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
正则表达式初步学习

正则表达式正则表达式，又称规则表达式**。**（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。给定的字符串是否符合正则表达式的过滤逻辑（匹配）通过正则表达式，从字符串中获得我们想要的特定部分使用场景爬虫数据挖掘和分析在Python中使用正则需要导...
复制链接

扫一扫