day 0802 正则表达式

最新推荐文章于 2022-11-02 14:52:15 发布

82年松花蛋

最新推荐文章于 2022-11-02 14:52:15 发布

阅读量295

点赞数

本文链接：https://blog.csdn.net/DAVID11234/article/details/98216122

版权

正则表达式

正则表达式，又称规则表达式**。**（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式，又称为

给定的字符串是否符合正则表达式的过滤逻辑（匹配）
通过正则表达似乎，从字符串中获得我们想要的特定的部分

使用场景

爬虫
数据挖掘和分析

在Python中使用正则需要导入re包

import re

首先我们来看两个例子来体验一下正则表达式的威力吧：

### 引入案例1

比如，已知一个列表：

li = [“Chinese”, “China”, “English”, “Britain”, “Canada”, “New Zealand”]

找出以Ch开头的字串。

# 法1
li = ["Chinese", "China", "English", "Britain", "Canada", "New Zealand"]
lt = []
for i in li:
	if i[0:2] == "Ch":
		lt.append(i)
print(lt)
# 法2
li = ["Chinese", "China", "English", "Britain", "Canada", "New Zealand"]
print([i for i in li if i[0:2]=="Ch"])

import re

a='ab23df5g67'
m=r'[0-9]+'
num=re.findall(m,a)
print(num)
-----》['23', '5', '67']

在来看个例子：

```python
张伟 86-14870293148 \n
王伟 +86-13285654569 \n
王芳 15856529115 \n
李伟 13022816340 \n
王秀英 (86)14785720656 \n
李秀英 17201444672 \n
李娜 15682812452 \n
张秀英 14326967740 \n
刘伟 15146435743 \n
张敏 (86)-17712576838 \n
李静 86 14295083635 \n
张丽 (+86) 13722348123 \n
王静 17587918887 \n
王丽 15493106739 \n
李强 13786842977 \n
张静 86-15542304386 \n
李敏 15642387356 \n
王敏 18627216756 \n
王磊 17206185726 \n
李军 17857426238 \n
刘洋 17345352790 \n
```

对于这样一段字符串，现在让你做如下处理：

1.提取所有 11 位数字电话号码

2.提取所有 18 或 13 开头的电话号码

3.提取所有“王”姓同学的名字

4.提取所有“张”姓同学的电话号码

5.重新排版，排版成统一的格式，去掉国家区号。

python正则表达式的基础

单字符匹配规则

字符	功能
.	匹配任意一个字符（除了\n）
[]	匹配【】中列举的字符
\d	匹配数字（0-9）
\D	匹配非数字（与\d取反）
\w	匹配字，A-Z,a-z,0-9,_
\W	匹配字，\w取反
\s	匹配空白字符，比如空格\tab
\S	匹配非空白字符，\s取反

demo:

m=re.match('1[35678]\d{9}','17357112858')
print(m.group())
17357112858

m=re.match('.','C')
print(m.group())
C
m=re.match('.','asdas')
print(m.group())
a
m=re.match('s','asdas')
print(m.group())
Traceback (most recent call last):
  File "D:/pycharm/PyCharm 2018.1/untitled/start study/2019 8/teach_class/day 0802 regex.py", line 12, in <module>
    print(m.group())
AttributeError: 'NoneType' object has no attribute 'group'
m=re.match('a','asdas')
print(m.group())
a

m=re.match('c','city')
print(m.group())
m=re.match('C','City')
print(m.group())
m=re.match('[Cc]','City')
print(m.group())
m=re.match('[Cc]','city')
print(m.group())
c
C
C
c

match,只匹配开头是搜索字符的字符串，并将其返回。

import re
dir(re)
[‘A’, ‘ASCII’, ‘DEBUG’, ‘DOTALL’, ‘I’, ‘IGNORECASE’, ‘L’, ‘LOCALE’, ‘M’, ‘MULTILINE’, ‘Match’, ‘Pattern’, ‘RegexFlag’, ‘S’, ‘Scanner’, ‘T’, ‘TEMPLATE’, ‘U’, ‘UNICODE’, ‘VERBOSE’, ‘X’, ‘_MAXCACHE’, ‘all’, ‘builtins’, ‘cached’, ‘doc’, ‘file’, ‘loader’, ‘name’, ‘package’, ‘spec’, ‘version’, ‘_cache’, ‘_compile’, ‘_compile_repl’, ‘_expand’, ‘_locale’, ‘_pickle’, ‘_special_chars_map’, ‘_subx’, ‘compile’, ‘copyreg’, ‘enum’, ‘error’, ‘escape’, ‘findall’, ‘finditer’, ‘fullmatch’, ‘functools’, ‘match’, ‘purge’, ‘search’, ‘split’, ‘sre_compile’, ‘sre_parse’, ‘sub’, ‘subn’, ‘template’]

re.match(pattern,string,flags=0)
- 作用：从字符串的开头开始匹配一个模式
  - 匹配成功，返回一个匹配成功的对象
  - 否则，返回None
- 参数说明：
  - pattern：匹配的正则表达式
  - string：要匹配的字符串
  - flags：标志位，用于控制正则表达式的匹配方式，比如是否匹配多行，是否区分大小写。
re.group([group1,…])字符串或者元组
- 作用：获得一个或者多个分组截获的字符串
- 指定多个参数时，就会以元组形式返回。
- group1可以使用编号，也可以使用别名
- 编号0代表匹配整个字符串，默认返回group（0）
- 如果没有截获字符串，返回None
- 截获了多次的组，返回最后一次截获的子串
re.groups([default=None]) tuple
作用：以元组形式返回全部分组截获的字符串。类似调用re.group(1,2,…,last)
如果没有截获字符串的组，默认返回None
re.search(pattern,str,flags=0)
- 作用：扫描整个字符串

数量匹配规则

[外链图片转存失败(img-BicJwHUV-1564738243339)(C:\Users\xdw\AppData\Roaming\Typora\typora-user-images\1564728583073.png)]

表示边界

字符	功能
^	匹配字符串开头
$	匹配字符串的结尾
\b	匹配一个单词的边界
\B	匹配非单词边界

##匹配分组

字符	功能
\|	匹配左右任意一个表达式
（ab）	将括号中的字符作为一个分组
\num	引用分组num匹配到的字符串
（?P）	分组起别名
（？P=name）	引用别名为name分组匹配到的字符串

82年松花蛋

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
day 0802 正则表达式

正则表达式正则表达式，又称规则表达式**。**（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式，又称为给定的字符串是否符合正则表达式的过滤逻辑（匹配）通过正则表达似乎，从字符串中获得我们想要的特定的部分使用场景爬虫数据挖掘和分析在Pyt...
复制链接

扫一扫