Python爬虫学习：正则表达式-替换模式sub

最新推荐文章于 2023-10-14 21:49:38 发布

南淮北安

最新推荐文章于 2023-10-14 21:49:38 发布

阅读量786

点赞数 1

分类专栏： Python 爬虫学习文章标签：正则表达式替换模式

本文链接：https://blog.csdn.net/nanhuaibeian/article/details/86591596

版权

Python 爬虫学习专栏收录该内容

58 篇文章 29 订阅

订阅专栏

1. 替换模式sub

s ='< I love programming ！> < you love python ! >'
re.sub(r'< (I.*?)>','Marry love python',s)
# 返回结果： 'Marry love python < you love python ! >'

发现此时< I love programming ！>整个都被替换了，而我们的本意是只替换
“I love programming ！”此时可以借助前向否定断言和后向否定断言。

(?<=)	(?=)
前向肯定断言。例如：`(?<=love)python`只匹配前边紧跟着“”的“love”的python	后向肯定断言，与前向一样，只是方向相反

re.sub(r'(?<=< )(I.*?)(?=>)','Marry love python',s)
# 返回结果：'< Marry love python> < you love python ! >'
#(?<=< )前向肯定断言限定，不改变‘<’，只是将其作为限定条件。
#(?=>)后向肯定断言，不改变‘>’，只是将其作为限定条件
#(I.*?)替换对象

2. 爬取网页换行符的处理

由于(.)表示匹配除了换行字符外的所有字符，因此对于爬取网页中换行符的需要以下处理。

#使用sub，将c字符串中所有的换行符替换成空格，再使用正则表达式
s = re.sub(r'\n',' ',c)

南淮北安

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python爬虫学习：正则表达式-替换模式sub

1. 替换模式subs ='&amp;lt; I love programming ！&amp;gt; &amp;lt; you love python ! &amp;gt;'re.sub(r'&amp;lt; (I.*?)&amp;gt;','Marry love python',s)# 返回结果： 'Marry love python &amp;lt; you love python ! &amp;gt;'发现此时&am
复制链接

扫一扫