python中正则的使用

1、元字符

.:除换行符以外的任意字符,re.S使.匹配包括换行的所有字符

[]:字符集,多个字符选一个,[^...]取反

():表示字符内的一个组

|:把字符做或操作

^:匹配字符串的开头

$:匹配字符串的结尾

?:匹配0或1个,非贪婪

+:匹配1到多个,默认贪婪模式

*:匹配0到多个,默认贪婪模式

{ n,m}:匹配 n 到 m 次由前面的正则表达式定义的片段,贪婪方式

\:转义符

import re

"""
斜杠\后面跟特殊字符取消特殊功能,例如\.
斜杠后面跟元字符添加特殊功能,例如:

\d  匹配任何十进制数;它相当于[0-9]
\D  匹配任何非十进制数;它相当于[^0-9]
\s  匹配任何空白字符;它相当于[\r\t\n\f\v]
\S  匹配任何非空白字符;相当于[^\r\t\n\f\v]
\w  匹配任何字母数字字符;相当于[A-Za-z0-9]
\W  匹配任何非字母数字字符;相当于[^A-Za-z0-9]
\b  匹配一个特殊字符边界 比如:空格 ,&,#等
"""

data1=re.findall("[\d]+","hello world 123 456")

print(data1)#['123', '456']

2、正则方法

import re

# 查找所有符合条件的对象
# re.findall() # 返回列表
# 查找第一个符合条件的匹配对象
s = re.search("\d+","a45bcd678")
print(s)
print(s.group())
"""
执行结果:<re.Match object; span=(1, 3), match='45'>
45
"""
# match同search,不过只在字符串开始处进行匹配
s = re.match("\d+","a45bcd678")
print(s)#None
#print(s.group())


# 正则分割split
ret = re.split('[ab]', 'abcd')
print(ret)#['', '', 'cd']


##正则替换
# \1代指第一个组匹配的内容  \2第二个组匹配的内容,思考如何能将所有的名字转大写替换
ret = re.sub("(hello )(.*?)(,)","\\1yuan\\3","hello python,hello world,hello re,")
print("ccc",ret)#ccc hello yuan,hello yuan,hello yuan,

# 编译再执行
obj=re.compile('\d{3}')
ret=obj.search('abc123ee45ff')
print(ret.group()) # 123

3、爬虫豆瓣网

import re

fp=open("chart","r")
result=""
for line in fp.readlines():
    result+=line

"""
爬虫豆瓣网   
先编译再执行

?P<pattern>匹配
正则捕获组?P=pattern可以复用格式
"""
data2=re.compile('<div class="pl2">.*?<a href=".*?" .*?>[\s]*(?P<filmname>.*?)\n.*?<span .*?>(?P<filmtype>.*?)</span>',re.S)
print(data2.findall(result))


"""
执行结果:
[('不要抬头', '千万别抬头 / 别往天上看'), ('黑客帝国:矩阵重启', '22世纪杀人网络:复活次元(港) / 骇客任务:复活(台)'), ('法兰西特派', '法兰西诸事周报(港) / 法兰西特派周报(台)'), ('哈利·波特20周年:回到霍格沃茨', '哈利·波特20周年特辑:重返霍格沃茨'), ('魔法满屋', '奇幻魔法屋(港) / 音乐的魔法'), ('新生化危机', '恶灵古堡首部曲:拉昆市(台) / 生化危机:欢迎来到浣熊市'), ('杰伊·比姆', '万岁毕姆 / 斗争万岁'), ('天鹅挽歌', '天鹅之歌 / 最后绝唱'), ('倒数时刻', '滴答,滴答……轰隆隆 / 梦想期限(港)'), ('芬奇', '芬奇的旅程 / 生化')]

"""

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python正则表达式是一种强大的工具,用于在字符串进行模式匹配和搜索。Python提供了re模块来支持正则表达式操作。 以下是Python正则表达式的一些常用功能和用法: 1. 匹配字符串:使用re.match()函数可以从字符串的起始位置开始匹配一个模式。如果匹配成功,返回一个匹配对象;否则返回None。 2. 搜索字符串:使用re.search()函数可以在整个字符串搜索匹配一个模式。如果匹配成功,返回一个匹配对象;否则返回None。 3. 查找所有匹配:使用re.findall()函数可以查找字符串所有匹配一个模式的子串,并返回一个列表。 4. 替换字符串:使用re.sub()函数可以将字符串匹配一个模式的子串替换为指定的字符串。 5. 切分字符串:使用re.split()函数可以根据一个模式将字符串切分成多个子串,并返回一个列表。 6. 匹配对象的属性和方法:匹配对象具有一些属性和方法,如group()、start()、end()等,可以获取匹配到的子串、匹配子串的起始位置和结束位置等信息。 正则表达式的语法非常灵活,可以用于匹配各种复杂的模式。以下是一些常用的正则表达式元字符: - . :匹配任意字符(除了换行符) - ^ :匹配字符串的起始位置 - $ :匹配字符串的结束位置 - * :匹配前面的字符零次或多次 - + :匹配前面的字符一次或多次 - ? :匹配前面的字符零次或一次 - [] :匹配括号内的任意一个字符 - () :标记一个子表达式的开始和结束位置 - | :匹配两个或多个表达式之一 正则表达式还支持一些特殊的字符类别和转义字符,用于匹配数字、字母、空白字符等特定类型的字符。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值