实操演示:正则表达式

1.RE-1

#---   正则最常用的符号 没有之一
#---   .  除了换行以外的任何字符
#---   +  匹配前一个表达式的规则的任意次数(至少出现一次)
#---   *  匹配前一个表达式的规则的任意次数(不出现/0次也包含)

##---   注意 + 和 * 属于辅助型的特殊字符

import re     #引入正则库python

#---最基础的普通字符,所见即所得
txt = '人工智能'
patt = r'人工'    #---注意不能跳着来,比如:人智
res = re.findall(pattern=patt,string=txt)
print(res)

#---特殊字符的表达式,也是正则的精髓
txt = '人工智能'
patt = r'.*'    #---注意  . 是见到就匹配 一次匹配一个
res = re.findall(pattern=patt,string=txt)
print(res)

txt='''
我在万门学python
我在万门学Django
我在万门学Java
我在万门学PPT
'''
patt = re.compile(r'学.*')  #注意 compile编译的意思,这里是编译当前的表达式
res = patt.findall(txt)   #patt现在是对象了,对象有一个内置方法就是findall 跟上边一样
print(res)

txt='''
我在万门学python
我在万门学Django
我在万门学Java
我在万门学PPT
我在万门学
'''
patt = re.compile(r'学.+')  #注意 * 和 + 的区别  + 是要满足至少出现一个才会生效的表达式
res = patt.findall(txt)   #patt现在是对象了,对象有一个内置方法就是findall 跟上边一样
print(res)

在这里插入图片描述
2.RE-2

#---     { }匹配指定次数  {3}指定3次  {2,5}指定2-5次范围

#---     ( )数据分组
#---     ^ 从头取值  $从尾巴取值


import re

#--- 先看指定次数{ }

txt='''
我是你的振振老师
13800001111
13300001111
13400
136123123
1510000134
万门大学
.*.*&#$'''
patt = r'.{3}'     #.  任意字符     {3}要满足3个任意字符
res = re.findall(pattern=patt,string=txt)
print(res)

txt="""
张三 python工程师
李四 Java工程师
王五五 前端工程师
"""

#---这种情况问题就如果锁定{2}就不行了,为啥?
patt = r'.{2,3}'
res = re.findall(pattern=patt,string=txt)
print(res)

#--- ^ 从一个段落 或 一行开头开始取
#--- findall()函数的参数 re.M=Multilines 多行取法,就是一行一组取

txt="""张三 python工程师
李四 Java工程师
王五五 前端工程师"""
patt = r'^.{2,3}'
res = re.findall(patt, txt,re.M)
print(res)

#--- ^是开头,接着说末尾取 $
txt="""张三 python工程师 8000
李四 Java工程师 10000
王五五 前端工程师 12000"""

patt = r'.{5}$'     #---从尾巴开始取。任意字符5次
res = re.findall(patt,txt,re.M)
print(res)

#输出有空格,所以使用专门取数字的写法 \d digit  处理
txt="""张三 python工程师 8000
李四 Java工程师 10000
王五五 前端工程师 12000"""
patt = r'\d+$'
res = re.findall(patt,txt,re.M)
print(res)

txt="""张三,销售总监,5000,3000
李四,销售经理,4000,2000
王五五,渠道经理,3500,1000
"""
patt = r',(\d+),'                   #注意()只是给输出做了分组,没有改变正则的规则
res = re.findall(patt,txt,re.M)
print(res)

patt = r',(\d+),(\d+)'              #更直观的分组方式
res = re.findall(patt,txt,re.M)
print(res)

输出结果:
在这里插入图片描述
3.RE-3

#---   [ ]根据条件筛选分配
#---   ^ 从头取值  $ 从尾巴取值
#---   \w 匹配任意包括下划线的任何单词字符
#---   \b 代表单词的开始或结束(以标点、空格、换行作为分割)
#---   findall参数 re.S换行也照样取值(使 . 取值包含换行内的所有字符)
#---   \S 匹配任何空白字符 那就是空格和回车\n


#----- 首先看[ ]筛选条件-----
#--- 即满足条件则匹配或者取值---
#以手机号为例,首先手机号第一位1开头,拟定第二位满足3 5 8

import re

phones = '''
13800001111
13900004321
15112341234
14100001234
12900003333
1c200005678
'''
patt = r'1[3,5,8]\d{9}'
res = re.findall(patt,phones)
print(res)

# ---匹配 a-e A-E 开头的英文单词
words='''
love
apple
bus
study
actor
strange
python
java
english
England
China'''
patt = r'^[a-eA-E].+'
res = re.findall(patt,words,re.M)
print(res)

#--- 反向取,取不是a-e A-E如何做?
#--- 特别注意  ^在[ ]内是特指反向条件的,或者叫‘非’
patt = r'^[^a-eA-E].+'
res = re.findall(patt,words,re.M)
print(res)

#--- 如果一个单词或一段需要匹配的文字 被切断行了怎么办?  re.S
msg='''我到万门
大学学习python
'''
patt = '到.*学'
res=re.findall(patt,msg,re.S)           #爬虫常用参数,因为一个页面里回车非常多,如果不使用re.S 很多数据取不到
print(res)

输出结果:
在这里插入图片描述
4.RE-4

#---  或 or | 双多条件匹配

import re
txt ='''
北京程序员工资10000元/月
上海程序员工资12000块/月
深圳程序员工资9500圆/月
'''

patt = r'\d+元|\d+块|\d+圆'            #使用|作为或 or条件,一次类推条件
res = re.findall(patt,txt,re.M)
print(res)

#---也可这样写---
patt = r'\d+[元,块,圆]'
res = re.findall(patt,txt,re.M)
print(res)

输出结果:
在这里插入图片描述
5.RE-5

#---正则   .*的贪婪模式
#---正则   .*?非贪婪模式


#简单网页取值来说(爬虫的第二级数据获取)

import re

html="<html><header><title>万门大学</title></header><body><h1>Hello world</h1><body></html>"

#--- 1 用<>做定位
#--- 2 用<.*>取里边的值

patt = r'<.*?>'
res = re.findall(patt,html)
print(res)

#启动非贪婪模式,遇到<>组合就算出一个值取出来,以此类推


#--- 下面是一个真是的网页布局,看看效果
html="""
<html>
     <header>
         <title>万门大学</title>
     </header>
     <body>
         <h1>Hello world</h1>
     <body>
</html>
"""
patt = r'<.*?>'
res = re.findall(patt,html)
print(res)

输出结果:
在这里插入图片描述
6.RE-6

#---用案例看看match和简单的split
import re

#---第一步先切割,切割应用的也是正则表达式,也是re库
qq='1234@qq.com*45532441@qq.com/4134abc234@qq.com a123324844@qq.com&15532441@qq.com#14532433@qq.cn'

patt = r'[*/&# ]'
res = re.split(patt,qq)
print(res)

qqpatt = r'[1-9][0-9]{4,10}@qq.com'
qqres = re.match(qqpatt,res[-2])
print(bool(qqres))

#完善功能
for i in res:
    qqres =re.match(qqpatt,i)
    if qqres:
        print(i,'合法QQ号')
    else:
        print(i, '非法QQ号')

输出结果:
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值