python 正则详解

最新推荐文章于 2025-03-21 22:12:48 发布

原创最新推荐文章于 2025-03-21 22:12:48 发布

· 558 阅读

0 ·

版权

文章标签：

#正则

python 专栏收录该内容

1 篇文章

订阅专栏

import re

"""

match，只查看是否以确定字符开头

其中span方法，直接返回匹配的位置

其中group，返回匹配的字符（如abcddge wef中查找\w+ is \w+）

匹配条件中”wefwef（）wefwef“括号内内容为要取出的内容

"""

print(re.match("Beauti",text).group())

"""

从头开始匹配，直到遍历到匹配的第一个

group(0)返回所有匹配的对象,group（1）匹配的第一个对象......

如re.match("(\w+) is ('w+),text).group(1) = Beautiful

"""

c = re.search("ugly",text)

print(c)

"""

sub

re.sub("要替换的字符串","替换成",搜索的文件，count替换几次）

默认替换所有

"""

split

re.split(",",text)

"""

findall

re.findall()返回所有匹配对象，列表形式

"""

re.findall("than (\w+)",text)#返回符合匹配条件的than后的对象

re.findall("href='(\w*.\w*)").findall()

#其中”.“表示点（href='image1.jpg')

"""

compile

预编译，增加运行速度

使用方法：

1.提前re.compile赋值给变量，再使用变量查找

2.re.compile("").findall(text)

"""

常用：

^ 匹配字符串的开头

$ 匹配字符串的末尾。

. 匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。

[...] 用来表示一组字符,单独列出：[amk] 匹配 'a'，'m'或'k'

[^...] 不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。

re* 匹配0个或多个的表达式。

re+ 匹配1个或多个的表达式。

re? 匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式

re{ n} 精确匹配 n 个前面表达式。例如， o{2} 不能匹配 "Bob" 中的 "o"，但是能匹配 "food" 中的两个 o。

re{ n,} 匹配 n 个前面表达式。例如， o{2,} 不能匹配"Bob"中的"o"，但能匹配 "foooood"中的所有 o。"o{1,}" 等价于 "o+"。"o{0,}" 则等价于 "o*"。

\w 匹配字母数字及下划线

\W 匹配非字母数字及下划线

\s 匹配任意空白字符，等价于 [\t\n\r\f].

\S 匹配任意非空字符

\d 匹配任意数字，等价于 [0-9].

\D 匹配任意非数字

\u4e00-\u9fa5 中文

"""

练习题：

1.删除html中的标签

import re



s = '''<div >

<p > 岗位职责：< /p >

<p > 完成推荐算法、数据统计、接口、后台等服务器端相关工作 < /p >

<p > <br > </p >

<p > 必备要求：< /p >

<p > 良好的自我驱动力和职业素养，工作积极主动、结果导向 < /p >

<p > <br > </p >

<p > 技术要求：< /p >

<p > 1、一年以上 Python 开发经验，掌握面向对象分析和设计，了解设计模式 < /p >

<p > 2、掌握HTTP协议，熟悉MVC、MVVM等概念以及相关WEB开发框架 < /p >

<p > 3、掌握关系数据库开发设计，掌握 SQL，熟练使用 MySQL/PostgreSQL 中的一种 < br > </p >

<p > 4、掌握NoSQL、MQ，熟练使用对应技术解决方案 < /p >

<p > 5、熟悉 Javascript/CSS/HTML5，JQuery、React、Vue.js < /p >

<p > <br > </p >

<p > 加分项：< /p >

<p > 大数据，数理统计，机器学习，sklearn，高性能，大并发。< /p >

</div >'''

p = r"<\s?/?\w+\s?>"

print(re.sub(p, " ", s))

#2.取出单词
import re


s = '''hello world ha ha'''

p = re.split(" ",s)
p2 = re.split(" +",s)
print(p,p2)

#2.将以下网址提取出域名：
import re


s2 = '''

http: // www.interoem.com/messageinfo.asp?id = 35`
http: // 3995503.com/class/class09/news_show.asp?id = 14
http: // lib.wzmc.edu.cn/news/onews.asp?id = 769
http: // www.zy-ls.com/alfx.asp?newsid = 377 & id = 6
http: // www.fincm.com/newslist.asp?id = 415
'''

condi = 'http:[\s\S]+[cn,com]/'
condi1 = '('
print(re.findall(condi,s2))