re.sub方法修改文档替换不完整问题

最新推荐文章于 2022-04-07 14:23:31 发布

青云依旧☻

最新推荐文章于 2022-04-07 14:23:31 发布

阅读量425

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/weixin_43118223/article/details/100109322

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

re.sub方法修改文档替换不完整问题

问题描述
问题原因
如何解决？
问题

问题描述

在python的re正则表达式模块中使用re.sub()方法替换文档中字符，有时会出现替换不完全现象：

with open('zhihu.html','rb') as f1:
    file = f1.read().decode('utf8')
    file_hh = re.sub('/>','/>\n',file,re.S)
    with open('zhihu_hh.html','wb') as f2:
        f2.write(file_hh.encode())

这段代码的原意是匹配到所有’/>'后换行，但是实际效果是对前几个匹配到的有效果，后面没变化。
修改前的html文档，没有换行
前面能匹配上，后面就失败了

问题原因

经过查找后，发现原因

re.sub(pattern, repl, string, count=0, flags=0)

有五个参数，第四个参数count表示替换的数量，而表示忽略换行的re.S应该是第五个参数。
如果将re.S参数作为第四个参数，此时没有报错的原因是re.S是python的常量对象，如果打印出来会发现也是数字：

>>> import re
>>> print(int(re.S))
16

数一下匹配到的‘/>’发现正好也是16，所以后面的就匹配不到了。

如何解决？

这里将re.sub('/>','/>\n',file,re.S)第四个参数设为count值即可，如果需要全文匹配可以设为0。

问题

为何re.S的值为16？

青云依旧☻

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录