实操演示：正则表达式

最新推荐文章于 2023-02-01 19:50:53 发布

redrum12345

最新推荐文章于 2023-02-01 19:50:53 发布

阅读量79

点赞数

文章标签：正则表达式 python 开发语言

本文链接：https://blog.csdn.net/lszyl521/article/details/127389487

版权

1.RE-1

#---   正则最常用的符号 没有之一
#---   .  除了换行以外的任何字符
#---   +  匹配前一个表达式的规则的任意次数（至少出现一次）
#---   *  匹配前一个表达式的规则的任意次数（不出现/0次也包含）

##---   注意 + 和 * 属于辅助型的特殊字符

import re     #引入正则库python

#---最基础的普通字符，所见即所得
txt = '人工智能'
patt = r'人工'    #---注意不能跳着来，比如：人智
res = re.findall(pattern=patt,string=txt)
print(res)

#---特殊字符的表达式，也是正则的精髓
txt = '人工智能'
patt = r'.*'    #---注意  . 是见到就匹配 一次匹配一个
res = re.findall(pattern=patt,string=txt)
print(res)

txt='''
我在万门学python
我在万门学Django
我在万门学Java
我在万门学PPT
'''
patt = re.compile(r'学.*')  #注意 compile编译的意思，这里是编译当前的表达式
res = patt.findall(txt)   #patt现在是对象了，对象有一个内置方法就是findall 跟上边一样
print(res)

txt='''
我在万门学python
我在万门学Django
我在万门学Java
我在万门学PPT
我在万门学
'''
patt = re.compile(r'学.+')  #注意 * 和 + 的区别  + 是要满足至少出现一个才会生效的表达式
res = patt.findall(txt)   #patt现在是对象了，对象有一个内置方法就是findall 跟上边一样
print(res)

在这里插入图片描述
2.RE-2

#---     { }匹配指定次数  {3}指定3次  {2，5}指定2-5次范围

#---     ( )数据分组
#---     ^ 从头取值  $从尾巴取值


import re

#--- 先看指定次数{ }

txt='''
我是你的振振老师
13800001111
13300001111
13400
136123123
1510000134
万门大学
.*.*&#$'''
patt = r'.{3}'     #.  任意字符     {3}要满足3个任意字符
res = re.findall(pattern=patt,string=txt)
print(res)

txt="""
张三 python工程师
李四 Java工程师
王五五 前端工程师
"""

#---这种情况问题就如果锁定{2}就不行了，为啥？
patt = r'.{2,3}'
res = re.findall(pattern=patt,string=txt)
print(res)

#--- ^ 从一个段落 或 一行开头开始取
#--- findall()函数的参数 re.M=Multilines 多行取法，就是一行一组取

txt="""张三 python工程师
李四 Java工程师
王五五 前端工程师"""
patt = r'^.{2,3}'
res = re.findall(patt, txt,re.M)
print(res)

#--- ^是开头，接着说末尾取 $
txt="""张三 python工程师 8000
李四 Java工程师 10000
王五五 前端工程师 12000"""

patt = r'.{5}$'     #---从尾巴开始取。任意字符5次
res = re.findall(patt,txt,re.M)
print(res)

#输出有空格，所以使用专门取数字的写法 \d digit  处理
txt="""张三 python工程师 8000
李四 Java工程师 10000
王五五 前端工程师 12000"""
patt = r'\d+$'
res = re.findall(patt,txt,re.M)
print(res)

txt="""张三，销售总监，5000，3000
李四，销售经理，4000，2000
王五五，渠道经理，3500，1000
"""
patt = r'，(\d+)，'                   #注意（）只是给输出做了分组，没有改变正则的规则
res = re.findall(patt,txt,re.M)
print(res)

patt = r'，(\d+)，(\d+)'              #更直观的分组方式
res = re.findall(patt,txt,re.M)
print(res)

输出结果：
在这里插入图片描述
3.RE-3

#---   [ ]根据条件筛选分配
#---   ^ 从头取值  $ 从尾巴取值
#---   \w 匹配任意包括下划线的任何单词字符
#---   \b 代表单词的开始或结束（以标点、空格、换行作为分割）
#---   findall参数 re.S换行也照样取值（使 . 取值包含换行内的所有字符）
#---   \S 匹配任何空白字符 那就是空格和回车\n


#----- 首先看[ ]筛选条件-----
#--- 即满足条件则匹配或者取值---
#以手机号为例，首先手机号第一位1开头，拟定第二位满足3 5 8

import re

phones = '''
13800001111
13900004321
15112341234
14100001234
12900003333
1c200005678
'''
patt = r'1[3,5,8]\d{9}'
res = re.findall(patt,phones)
print(res)

# ---匹配 a-e A-E 开头的英文单词
words='''
love
apple
bus
study
actor
strange
python
java
english
England
China'''
patt = r'^[a-eA-E].+'
res = re.findall(patt,words,re.M)
print(res)

#--- 反向取，取不是a-e A-E如何做？
#--- 特别注意  ^在[ ]内是特指反向条件的，或者叫‘非’
patt = r'^[^a-eA-E].+'
res = re.findall(patt,words,re.M)
print(res)

#--- 如果一个单词或一段需要匹配的文字 被切断行了怎么办？  re.S
msg='''我到万门
大学学习python
'''
patt = '到.*学'
res=re.findall(patt,msg,re.S)           #爬虫常用参数，因为一个页面里回车非常多，如果不使用re.S 很多数据取不到
print(res)

输出结果：
在这里插入图片描述
4.RE-4

#---  或 or | 双多条件匹配

import re
txt ='''
北京程序员工资10000元/月
上海程序员工资12000块/月
深圳程序员工资9500圆/月
'''

patt = r'\d+元|\d+块|\d+圆'            #使用|作为或 or条件，一次类推条件
res = re.findall(patt,txt,re.M)
print(res)

#---也可这样写---
patt = r'\d+[元，块，圆]'
res = re.findall(patt,txt,re.M)
print(res)

输出结果：
在这里插入图片描述
5.RE-5

#---正则   .*的贪婪模式
#---正则   .*?非贪婪模式


#简单网页取值来说（爬虫的第二级数据获取）

import re

html="<html><header><title>万门大学</title></header><body><h1>Hello world</h1><body></html>"

#--- 1 用<>做定位
#--- 2 用<.*>取里边的值

patt = r'<.*?>'
res = re.findall(patt,html)
print(res)

#启动非贪婪模式，遇到<>组合就算出一个值取出来，以此类推


#--- 下面是一个真是的网页布局，看看效果
html="""
<html>
     <header>
         <title>万门大学</title>
     </header>
     <body>
         <h1>Hello world</h1>
     <body>
</html>
"""
patt = r'<.*?>'
res = re.findall(patt,html)
print(res)

输出结果：
在这里插入图片描述
6.RE-6

#---用案例看看match和简单的split
import re

#---第一步先切割，切割应用的也是正则表达式，也是re库
qq='1234@qq.com*45532441@qq.com/4134abc234@qq.com a123324844@qq.com&15532441@qq.com#14532433@qq.cn'

patt = r'[*/&# ]'
res = re.split(patt,qq)
print(res)

qqpatt = r'[1-9][0-9]{4,10}@qq.com'
qqres = re.match(qqpatt,res[-2])
print(bool(qqres))

#完善功能
for i in res:
    qqres =re.match(qqpatt,i)
    if qqres:
        print(i,'合法QQ号')
    else:
        print(i, '非法QQ号')