Python正则的匹配与替换

努力学习各种软件

已于 2024-01-21 12:08:24 修改

阅读量606

点赞数 9

分类专栏：爬虫总结文章标签： python

于 2023-12-31 12:17:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_57265868/article/details/135314591

版权

爬虫总结专栏收录该内容

15 篇文章 3 订阅

订阅专栏

import re

查找时的注意事项，要查找的内容左右两边打出来，用真正的字符，不要用.*?，离查找内容远一点，再用.*?
a = '/aksj<a>哈哈哈<a><p>拉阿鲁<p>\.askjp'
b = re.findall('<a>(.*?)<a><p>(.*?)<p>',a)
print(b)

结果为：

[('哈哈哈', '拉阿鲁')]

匹配的结果为括号中的内容，其他的不会呈现（.*？）表示所有的内容

在应用到html中匹配的时候，由于涉及到换行符，所以常要用修饰符re.S，匹配换行符。

re.findall("",response.text,re.S)

但是注意，再写含换行符的正则时，一定要让.*?包含换行符，然后再加上re.S才会有效果

想要获取主题作者的名字，应该按以下编写正则

author = re.findall('<span class="tb_icon_author.*?title="主题作者:(.*?)".*?quot',response.text,re.S)

以下为结果

c = '"as"/\aksjlaacontent="我是你爸爸",assdad/'
d = re.findall('.*?content=(.*?),assdad',c)
print(d)

结果为：

['"我是你爸爸"']

不想打字符，可以用.*?替代

g = re.sub('[/<>]','我好快乐',c)
print(g)

结果为：

"as"我好快乐 ksjlaacontent="我是你爸爸",assdad我好快乐

把c中/尖括号替换为我好快乐，这里的中括号不能省

不然结果为：

"as"/ ksjlaacontent="我是你爸爸",assdad/

它识别不出来

h = re.sub('[a-z]','啦',c)
print(h)

结果为：

"啦啦"/ 啦啦啦啦啦啦啦啦啦啦啦啦啦="我是你爸爸",啦啦啦啦啦啦/

这里也必须要中括号，把所有的字母替换为啦

以后写还是加上中括号，还在前面加个r

m = 'h\njkshj'
k = re.sub('[\n]','',m)
print(k)

结果为：

hjkshj

这里要不要中括号都可以

努力学习各种软件

关注

9
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

努力学习各种软件 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。