python爬虫-正则表达式，值得推荐

最新推荐文章于 2024-09-24 16:40:08 发布

上官夏恋

最新推荐文章于 2024-09-24 16:40:08 发布

阅读量986

点赞数 11

分类专栏： 2024年程序员学习文章标签： python 爬虫正则表达式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_76328475/article/details/136975395

版权

2024年程序员学习专栏收录该内容

289 篇文章 1 订阅

订阅专栏

import re # 导入re模块

pattern = ‘.ello’ # 表达式

match = re.match(pattern, ‘hello’) # 匹配字符串

print(match) # 打印匹配结果

match = re.match(pattern, ‘aello’) # 匹配字符串

print(match)

match = re.match(pattern, ‘6ello’) # 匹配字符串

print(match)

match = re.match(pattern, ‘ello’) # 匹配字符串

print(match)

程序运行结果：

在这里插入图片描述

如果想匹配多个字符串：

import re # 导入re模块

pattern = ‘hello|我’ # 表达式,表示需要匹配“hello”或“我”开头的字符串

match = re.match(pattern, ‘hello word’) # 匹配字符串

print(match) # 打印匹配结果

match = re.match(pattern, ‘我爱Python’) # 匹配字符串

print(match)

程序运行结果：

在这里插入图片描述

如果想要获取匹配的部分内容

import re # 导入re模块

表达式，“hello”开头，“\s”中间空格，“（\w+）”分组后面所有字母、数字以及下划线数据

pattern = ‘hello\s(\w+)( abc)’

match = re.match(pattern, ‘hello world abc’) # 匹配字符串

print(match) # 打印匹配结果

print(match.group()) # 打印所有匹配内容

print(match.group(0))

print(match.group(1)) # 打印分组指定内容

print(match.group(2))

程序运行结果：

在这里插入图片描述

从中可以看出，group()方法默认参数为0，默认输出匹配的所有内容，如果参数为1，则输出第一个分组匹配到的部分，参数为2则输出第二个分组匹配到的部分，以此类推。（不同于一般的索引从0开始的规则）

匹配指定首位的字符串

import re # 导入re模块

表达式,h开头，n$表示n结尾

pattern = ‘h\w+\s[\u4e00-\u9fa5]+\s\w+n$’

match = re.match(pattern, ‘hello 我爱 Python’) # 匹配字符串

print(match) # 打印匹配结果

print(match.group()) # 打印所有匹配内容

程序运行结果：

在这里插入图片描述

__

3.使用search()进行匹配

======================================================================================

search()方法用于在整个字符串中搜索第一个匹配的值，如果在第一匹配位置匹配成功，则返回Match对象，否则返回None。

re.search(pattern, string, [flags])

pattern 模板字符串
string 要匹配的字符串
flag 可选参数，修饰符

获取第一匹配值

import re

pattern = ‘hello_\w+’ # 模式字符串

string = ‘HELLO_world’ # 要匹配的字符串

match = re.search(pattern, string, re.I) # 搜索字符串，不区分大小写

print(match) # 输出匹配结果

string = ‘abcHELLO_world’

match = re.search(pattern, string, re.I) # 搜索字符串，不区分大小写

print(match) # 输出匹配结果

程序运行结果：

在这里插入图片描述

可选匹配

（即针对有的部分可有可无的情况）

表达式’(\d?)+hello\s?([\u4e00-\u9fa5]?)+'分析：

?表示0次或1次，+表示一次或多次，?+在一起表示0次到任意次。

(\d?)+则表示多个数字可有可无，

\s?表示0个或1个空格，

([\u4e00-\u9fa5]?)+多个汉字可有可无

import re # 导入re模块

pattern = ‘(\d?)+hello\s?([\u4e00-\u9fa5]?)+’

match = re.search(pattern, ‘01hello’)

print(match)

match = re.search(pattern, ‘hello’)

print(match)

match = re.search(pattern, 'hello ')

print(match)

match = re.search(pattern, ‘hello 第一’)

print(match)

match = re.search(pattern, ‘ello 第一’)

print(match)

程序运行结果：

在这里插入图片描述

匹配字符串边界

\b用于匹配字符串边界，分界符通常是空格，标点符号或者换行，以及要匹配的字符串本身的两端的两个位置即便没有任何符号但也是边界

import re

pattern = r’\bhe\b’

match = re.search(pattern, ‘hello’) # 无右边界，不匹配

print(match)

match = re.search(pattern, ‘he llo’) # 左边是字符串最左端，右边是空格，匹配成功

print(match)

match = re.search(pattern, ’ hello ') # 左边是最左端，右边不是边界，不匹配

print(match)

match = re.search(pattern, ‘he.llo’) # 左边是最左端，右边是一个点符号，匹配成功

print(match)

程序运行结果：

在这里插入图片描述

__

4.使用finddall()进行匹配

========================================================================================

findall()方法用于在整个字符串中搜索符合正则表达式的字符串，并以列表的方式返回。如如果匹配不成功则返回空列表。

re.finddall(pattern, string, [flags])

参数意义同上。

4.1位置匹配

import re

pattern = ‘hello_\w+’

string = ‘HELLO_world’

match = re.findall(pattern, string, re.I)

print(match)

string = ‘abcHELLO_world’

match = re.findall(pattern, string)

print(match)

程序运行结果：

在这里插入图片描述

4.2贪婪匹配

python重复匹配时，正则总是尽可能多地匹配，默认是贪婪的。

常见的： .*

“.” 点星是一种万能的匹配方式，点匹配除换行符以外的任意字符，表示0次或任意次。

import re

pattern = ‘https://.*/’

match = re.findall(pattern, ‘https://www.hao123.com/’)

print(match)

程序运行结果：

在这里插入图片描述

如果想单独获得点星部分的内容，则只需要给点星加个括号。使用(.*)的方式进行匹配。

import re

pattern = ‘https://(.*)/’

match = re.findall(pattern, ‘https://www.hao123.com/’)

print(match)

爬虫中经常用到的例如，

.*<\div>

4.3非贪婪匹配

非贪婪匹配需要用到问号。

.*?

需求：“匹配[‘123’]

import re

pattern = 'https://.(\d+).com/’ # 表达式，“.”获取www.hao123.com

match = re.findall(pattern, ‘https://www.hao123.com/’)

print(match)

程序运行结果只匹配了一个[‘3’]，没有满足需求。

在这里插入图片描述

因为点星会尽可能多的匹配，点星匹配了www.hao12，把3留给了(\d+)匹配。

想要得到[‘123’]，需要把点星换成点星问（.*?）

import re

pattern = ‘https://.*?(\d+).com/’

match = re.findall(pattern,‘https://www.hao123.com/’)

print(match) xc

程序运行结果：

在这里插入图片描述

点星问表示尽可能少的匹配，所以点星问匹配了www.hao，把123留给了(\d+)匹配。

需要注意的是，

如果需要匹配的结果在字符串尾部，非贪婪匹配可能匹配不到任何内容。示例：

import re

如果你也是看准了Python，想自学Python，在这里为大家准备了丰厚的免费学习大礼包，带大家一起学习，给大家剖析Python兼职、就业行情前景的这些事儿。

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

二、学习软件

工欲善其必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

三、全套PDF电子书

书籍的好处就在于权威和体系健全，刚开始学习的时候你可以只看视频或者听某个人讲课，但等你学完之后，你觉得你掌握了，这时候建议还是得去看一下书籍，看权威技术书籍也是每个程序员必经之路。

四、入门学习视频

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

四、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

五、面试资料

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

成为一个Python程序员专家或许需要花费数年时间，但是打下坚实的基础只要几周就可以，如果你按照我提供的学习路线以及资料有意识地去实践，你就有很大可能成功！
最后祝你好运！！！

小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数初中级Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python爬虫全套学习资料》送给大家，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频

如果你觉得这些内容对你有帮助，可以添加下面V无偿领取！（备注：python）

。

成为一个Python程序员专家或许需要花费数年时间，但是打下坚实的基础只要几周就可以，如果你按照我提供的学习路线以及资料有意识地去实践，你就有很大可能成功！
最后祝你好运！！！

小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数初中级Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python爬虫全套学习资料》送给大家，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频

如果你觉得这些内容对你有帮助，可以添加下面V无偿领取！（备注：python）
[外链图片转存中…(img-YdbVP3SB-1711199312536)]

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。