小白学爬虫笔记12---正则表达式-Re库的Match方法&最小匹配

最新推荐文章于 2022-01-05 22:21:56 发布

paleyellow

最新推荐文章于 2022-01-05 22:21:56 发布

阅读量330

点赞数

分类专栏：笔记 python

笔记同时被 2 个专栏收录

24 篇文章 1 订阅

订阅专栏

python

17 篇文章 0 订阅

订阅专栏

re库的match对象

match = re.search(r'[1-9]\d{5}','BIT 100081')
if match:
    print (match.group(0))
type(match) # <class '_sre.SRE_Match'>

Match对象的属性

.string 待匹配的额文本
.re 匹配时使用的pattern对象（正则表达式）
.pos 正则表达式搜索文本的开始位置
.endpos 正则表达式搜索文本的结束位置

Match对象的方法

.group(0) 获取匹配后的字符串
.start() 匹配字符串在原始字符串的开始位置
.end() 匹配字符串在原始字符串的结束位置
.span() 返回（.start(),.end())

m.string # 'BIT100081 TSU100084'
m.re # re.compile('[1-9]\\d{5}')
m.pos # 0
m.endpos # 19
m.group(0) # '100081'
m.start() # 3
m.end() # 9
m.span() # (3,9)

Re库的贪婪匹配与最小匹配

match= re.search(r'PY.*N','PYANBNCNDN')
match.group(0) # 'PYANBNCNDN'

贪婪匹配

Re库默认采用贪婪匹配，即输出匹配最常的子串

输出最短子串

match = re.search(r'PY.*?N','PYANBNCNDN')
match.group(0) # 'PYAN'

最小匹配操作符

*？前一个字符0次或无限次扩展，最小匹配
+？前一个字符1次或无限次扩展，最小匹配
？？前一个字符1次或0次扩展，最小匹配
{m,n}? 扩展前一个字符m至n次（含n），最小匹配

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

paleyellow

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python re正则表达式定位词 + 最小匹配【.*?】

Ailsa2019的博客

04-02

1508

re正则表达式 import re re.findall(pattern, string, flags=0) 这个组合可以满足绝大多数的应用场景：定位词 + 最小匹配【.*?】继上篇【requests获取网页内容】获得网页page之后，需要从中提取出目标内容【211 : Domain name is not available】观察page可知，目标内容前方的定位词为【<origin...

网络爬虫：Re库与正则表达式

Jingmin Wei's Blog

03-11

1026

参与评论您还未登录，请先登录后发表或查看评论

在php中用正则表达式实现最短匹配

e23的专栏

12-07

1229

看下面一个匹配例子: src=/"http://(.*)(jpg|JPG|gif|GIF|png) 是一个匹配的表达式,一般可以实现匹配有图片显示的地址但(.*)是最长匹配,在某些情况下就会出错要实现最短匹配得加上一个 ? ,修改后的表达式为 src=/"http://(.*)?(jpg|JPG|gif|GIF|png) 就可以避免出错

【正则表达式】{4} ——Re库的贪婪匹配和最小匹配

Giyn

03-06

520

参考资料：Python网络爬虫与信息提取（北京理工大学慕课）实例：同时匹配长短不同的多项，返回哪一个呢？贪婪匹配 Re库默认采用贪婪匹配，即输出匹配最长的子串：最小匹配如何输出最短的子串呢？最小匹配在贪婪匹配的基础上进行了扩展，也就是说Re库中，如果你希望得到最小匹配，你需要对以下四个操作符进行扩展：最小匹配操作符：操作符说明 *? 前一个字符0次或无...

Python——Re库、match对象、Re库的贪婪匹配和最小匹配

Noob_Zhou的博客

03-28

1114

Re库的主要功能函数一、search函数re.search(pattern,string,flags=0)flagssearch函数举例 match函数：findall函数：match对象贪婪匹配和最小匹配：操作符后加？获得最小匹配结果...

java 正则最小匹配_正则表达式实现最小匹配功能的方法

weixin_42467428的博客

02-13

1270

本文实例讲述了正则表达式实现最小匹配功能的方法。分享给大家供大家参考，具体如下：正则表达式默认情况下实现的是最大化匹配，这在有些情况下是非常不愿意出现的，比如下面这段代码：# starting IndiaInventoryAPP.exe" ~~DisplayVariableValues "parameterGroup,mailRecipients,ModuleArgs"~DisplayVariab...

《Python网络爬虫与信息提取》第三周网络爬虫之实战学习笔记（一）Re（正则表达式）库入门

01-21

一、Re（正则表达式）库入门 1、正则表达式的概念（1）正则表达式的定义（2）正则表达式的概念（3）正则表达式的举例（4）正则表达式的特点（5）正则表达式在文本处理中十分常用（6）正则表达式的使用 2、正则...

Python爬虫教程-19-数据提取-正则表达式 re

qq_44906554的博客

04-12

261

Python爬虫教程-19-数据提取-正则表达式 re

(董付国)Python 学习笔记---Python字符串与正则表达式（3）

何少的博客

08-16

489

4.2 正则表达式 正则表达式是字符串处理的有力工具和技术。 正则表达式是使用某种预定义的模式去匹配一类具有共同特征的字符串，主要用于处理字符串，可以快速、准确地完成复杂的查找、替换等处理要求，在文本编辑与处理、网页爬虫之类的场合中有重要作用。 Python中，re模块提供了正则表达式操作所需要的功能。 4.2.2 re模块主要方法 4.2.3 直接使用re模块方法 >&gt...

Python正则表达式re模块简明笔记.docx

最新发布

07-20

### Python正则表达式re模块知识点详解 #### 一、正则表达式概念与应用场景 正则表达式（Regular Expression）是一种强大的文本处理工具，在文本搜索、文本替换、数据提取等多个场景有着广泛的应用。它能够帮助...

PHP实现正则匹配所有括号中的内容

10-18

主要介绍了PHP实现正则匹配所有括号中的内容,需要的朋友可以参考下

爬虫：Re库的贪婪匹配和最小匹配

yorkmass

11-24

383

贪婪匹配 Re库默认采用贪婪匹配，即输出匹配最长的子串。 >>> import re >>> match=re.search(r'PY.*N','PYANBNCNDN') >>> match.group(0) 'PYANBNCNDN' 最小匹配如何输出最短的子串呢？对！那就加个问号吧~ >>> import...

Python 正则表达式Re库的match对象及使用实例——ZHJ

03-31

989

Match对象的常用属性属性说明 .string 待匹配的文本 .re 匹配时使用的pattern对象（正则表达式） .pos 正则表达式搜索文本的开始位置 .endpos 正则表达式搜索文本的结束位置 Match对象常用方法方法说明 .group(0）获得匹配后的字符串 .start() 匹配字符串在原始字符串的开始位置 .en...

python re库的贪婪匹配和最小匹配

一叶知秋的博客

04-28

2849

举例： import re m=re.search(r'PY.*N','PYANBNCNDN') m.group(0) 我们用re库中的search函数进行匹配，表示匹配以PY开头，以N结尾，中间可以有若干字符串的字符串。我们匹配的目标是字符串PYANBNCNDN 从这串字符串里我们可以看到其中包含多项匹配项，长度不一，有PYAN ;PYANBN;PYANBNCN;PYANBNCNDN;那我们究...

python关于正则表达式贪婪匹配，最短匹配，精确匹配的原则

louniuous的博客

05-18

6745

最近想抓一个网站的图片，写了一段程序，结果在爬取的时候，在某些位置就报爬取失败的错误。仔细查看了那些报错的数据对正则表达式的匹配有了更深的理解。最短匹配遵循以下原则：最先开始的匹配拥有最高的优先权——The match that begins earliest wins。即最短匹配是右侧最短，左侧不可知，很可能最长。首先看下例子：__author__ = 'Administrator'import...

学习笔记：Re 库的贪婪匹配和最小匹配

苏法迪的专栏

01-05

1468

1. 笔记的学习视频来源： https://www.bilibili.com/video/BV1pt41137qK?p=39 2. Re库默认采用贪婪匹配虽然’PY.*N’匹配字符串’PY1N22N33N’ 可以得到 PY1N， PY1N22N， PY1N22N33N，但是Re库默认采用贪婪匹配，即输出最长的字符串PY1N22N33N """ # 特别字符 * 表示匹配前面的子表达式零次或多次 # 特别字符 . 匹配除换行符 \n 之外的任何单字符 # PY.*N 表

第三周 3 re库的贪婪匹配和最小匹配

antujiao6624的博客

08-23

119

转载于:https://www.cnblogs.com/key221/p/9526160.html

re库的基本使用、match对象和贪婪匹配

WangaWen1229的博客

05-07

462

1.基本函数原生字符串中间的斜杠不被解释为转义符上例是邮政编码和国内手机的正则表达式 即当正则表达式包含转义符时，使用raw string re.IGNORECASE 匹配大小写 import re match=re.search(r'[1-9]\d{5}','BIT 100081') if match: print(match.group(0)) 结果： 100081 ...

Re库的贪婪匹配和最小匹配

nicebluechai的博客

11-16

221

实例同时匹配长短不同的多项，返回哪个呢？贪婪匹配 Re库默认采用贪婪匹配，即输出匹配最长的字符串。最小匹配如何输出最短的子串呢？最小匹配操作符操作符说明 *? 前一个字符0次或无限次扩展，最小匹配 +? 前一个字符1次或无限次扩展，最小匹配 ?? 前一个字符0次或1次扩展，最小匹配 ...

"Python爬虫学习笔记：正则表达式与re库基本使用

在Python中，可以使用re这个模块库来实现对正则表达式的相关操作，包括查找、提取、替换一段有规律的信息。在正则表达式中，有一些基本的符号和语法需要掌握。首先是点号‘.’，一个点号可以代替除了换行符以外的...