Python 正则表达式 01

最新推荐文章于 2022-06-27 23:25:29 发布

牟泉禹[Dark Cat]

最新推荐文章于 2022-06-27 23:25:29 发布

阅读量511

点赞数

分类专栏：学习笔记网络爬虫技术分享文章标签：正则表达式 python 前端

BY-牟泉禹/MuQuanyu

本文链接：https://blog.csdn.net/qq_52606908/article/details/122350267

版权

学习笔记同时被 3 个专栏收录

387 篇文章 11 订阅

订阅专栏

技术分享

7 篇文章 1 订阅

订阅专栏

网络爬虫

4 篇文章 0 订阅

订阅专栏

Python 正则

Python 的正则表达式要配合 re 模块来进行使用。

那么在看完我的这篇通用正则文章后，我们先来接触一下在 Python 中正则表达式是如何使用的。

我们也将通用正则里的三个学习材料，当作这篇文章的学习材料！进行实践和学习。

① match(正则表达式,待匹配的字符串,匹配的其它限制) 傻傻的 match 方法

match() 方法就是只能从起始位置开始进行一个匹配。如果匹配不上，那么就玩完了。肯定会返回给你一个 None

举例：
比如字符串 abcABC 我们通过 准确搜索，想要匹配 ABC 那么你用 match 的话，就肯定是从起始位置的 a 开始匹配了。那么这样的话一辈子你都匹配不到 ABC。

所以我也把它称为傻傻的方法。。。

但是在有些应用场景还是很常用的。比如你想取的数据就是刚好从起始位置开始匹配的。那么这个方法就恰到好处了。你不需要太过于复杂的编辑正则表达式。可能就匹配到了。

import re

待匹配字符串 = open('1.txt','r').read()

print(待匹配字符串)

print(re.match('ABC', 待匹配字符串))  # 在起始位置匹配

在这里插入图片描述
本来呢，这个字符串里，是有 ABC 的，但是它就是取不到。。因为它是从起始位置开始匹配的。

② serach(正则表达式,待匹配的字符串,匹配的其它限制) 它才是我们最常用的匹配方法，因为我们的正则表达式就是要把所有的字符串都进行一个扫描的。

唯一的缺点就是只能捕获到第一个匹配的字符串

import re

待匹配字符串 = open('1.txt','r').read()

# print(待匹配字符串)

print(re.match('ABC', 待匹配字符串))  # 在起始位置匹配
print(re.search('ABC',待匹配字符串).span()) # 把全部字符串都进行扫描

print(待匹配字符串[27:30])

在这里插入图片描述

③ searchObj.group() 和 searchObj.groups() 我们匹配到的项是可以通过 group 进行一一获取的。

这个所谓的匹配到的项，还是有点儿讲究的。

我们 pyrhon 的 re 规定，凡是在正则表达式里： () 用括号括上的，都算是可以匹配到的项。

line = "Cats are smarter than dogs";

searchObj = re.search(r'(.*) are (.*?) .*', line, re.M | re.I)

if searchObj:
    print("searchObj.group() : ", searchObj.group())
    
    print("searchObj.group(1) : ", searchObj.group(1))
    
    print("searchObj.group(2) : ", searchObj.group(2))
    
else:
    print("Nothing found!!")

我们可以看到，(.*) 匹配任意字符0到无限个，已经被括号括起来了！所以这个也算是一个可以匹配到的项。
在这里插入图片描述

④ (?P<groupKey>正则表达式)它的意思是我们规定一个 Key，进行可以匹配到的项的关键字。然后可以通过 group(Key) 来直接获取到这个项。

这样做的目的是方便我们找到我们需要的项。而不是通过 1、2、3 这样的无真实含义的数字来做关键字。

line = "Cats are smarter than dogs";

searchObj = re.search(r'(?P<pre>.*) are (?P<end>.*?) .*', line, re.M | re.I)

if searchObj:
    print("searchObj.group('pre') : ", searchObj.group('pre'))

    print("searchObj.group('end') : ", searchObj.group('end'))

    print("searchObj.group() : ", searchObj.group())

else:
    print("Nothing found!!")

在这里插入图片描述

⑤ re.sub('正则表达式','替换后的字符串',待匹配的字符串,count=匹配次数) 匹配到的字符串会被替换为你提供的替换后字符串。如果count为空，那么它就会从头到尾一直扫描，所有能够匹配到的字符串，然后一一进行替换。

待匹配的字符串还可以写为一个函数，参数是自动提供给你一个匹配结果的迭代器。可以用 .group() 来获取到匹配项的值

# 将匹配的数字乘以 2
def double(matched):
    value = int(matched.group('value'))
    return str(value * 2)

s = 'A23G4HFD567'
searchObj = re.search('(\d+)',s)
findallObj = re.findall('(\d+)',s)
print(findallObj)

print(re.sub('(?P<value>\d+)', double, s))

在这里插入图片描述

⑥ findall('正则表达式',待匹配的字符串,一些其它的限制条件) 可以匹配到所有符合正则表达式的字符串。不单单只匹配一个。这个我们用的也是最多的！因为我们爬虫往往用正则取的数据都是粗略的。取下来之后我们都是用字符串方法去进行二次处理的。这样是最高效，也是最方便，最容易的。

print(re.findall('\d+', s))

在这里插入图片描述

⑦ finditer('正则表达式',待匹配的字符串,一些其它的限制条件) 也是可以匹配到所有符合正则的字符串，但是它返回的是一个迭代器。也就是说我们要通过 for 循环，进行一个遍历，然后还要通过 .group() 来取匹配项的值。

matchs = re.finditer('\d+',s)

for match in matchs:
    print(match.group())

在这里插入图片描述

⑧ split('正则表达式','待匹配的字符串',一些其它的限制条件) 就是将匹配到的字符串，用来作为分隔符，然后进行字符串的分割，最后返回一个列表。这个在一些特殊场景，还是很实用的！我们也把正则的这种 split 称为字符串的高级分割！当然字符串的 split 好像也支持正则表达式，哈哈 ~ ~

print(re.split('\d+', s)) # 比如让中间的这些数字 作为 分隔符，很轻松 就能做到。

在这里插入图片描述

⑨ re.compile(正则表达式) 这个方法是很重要的，我们如果想要正常的使用 re 这个模块的正则匹配功能。就必须先用这个方法来进行正则表达式的编译，生成一个正则表达式（ Pattern ）对象。

我们通过Pattern 对象，可以实现很多正则的方法，而且这些方法可能比你直接 re.xxx 多了一些功能。

举个例子，比如我们的 match() 匹配它是从开头匹配的。但是通过我们的 compile() 方法编译的 Pattern 对象的 match() 方法就可以限制起始和结束的位置。即扫描的匹配范围。

pattern = re.compile('ABC')
print(pattern.match(待匹配字符串, 27, 30).span())

在这里插入图片描述
这样就能匹配到！这样就很强了。

PS：这个有多有用呢？我刚学爬虫的时候，有些时候一些元素都太像了。所以需要进行一个定位。如果可以定位，那么在那个范围进行匹配，就只能匹配到我想匹配的那个数据了。这样省了很多麻烦事。

牟泉禹[Dark Cat]

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python 正则表达式 01

Python 正则Python 的正则表达式要配合 re 模块来进行使用。那么在看完我的这篇通用正则文章后，我们先来接触一下在 Python 中正则表达式是如何使用的。我们也将通用正则里的三个学习材料，当作这篇文章的学习材料！进行实践和学习。① match(正则表达式,待匹配的字符串,匹配的其它限制) 傻傻的 match 方法match() 方法就是只能从起始位置开始进行一个匹配。如果匹配不上，那么就玩完了。肯定会返回给你一个 None举例
复制链接

扫一扫