Python正则表达式书写容易碰到的陷阱：\W和\W？匹配过程遇到的问题

最新推荐文章于 2025-03-21 11:17:27 发布

LaoYuanPython

最新推荐文章于 2025-03-21 11:17:27 发布

阅读量1.7k

点赞数 2

文章标签： Python 正则表达式

本文链接：https://blog.csdn.net/LaoYuanPython/article/details/100045574

版权

本文通过一个具体的例子，深入分析了Python正则表达式中W*贪婪模式和非贪婪模式的区别。作者在实践中发现，输入符号的差异会导致截然不同的匹配结果，揭示了在使用正则表达式时需注意符号类型的细节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

老猿在分析《Python正则表达式\W+和\W*匹配过程的深入分析》中的问题时，想到一个问题，如果“re.split(’(\W*)’,‘Hello，world’)”的处理如果换成非贪婪模式会怎么样，根据老猿的预测，由于在’Hello，world’中没有连续的非单词字符，因此贪婪模式处理和非贪婪模式结果应该一样，如是测试了一下看看效果：

>>> re.split('(\W*)','Hello，world') #贪婪模式
['', '', 'H', '', 'e', '', 'l', '', 'l', '', 'o', '，', '', '', 'w', '', 'o', '', 'r', '', 'l', '', 'd', '', '']
>>> re.split('(\W*？)','Hello，world') #非贪婪模式
['Hello，world']
>>>

看到这结果老猿完全懵圈了，这完全推翻了《Python正则表达式\W+和\W*匹配过程的深入分析》的分析过程。但执行结果肯定是正常的，肯定是老猿自己的问题，大家觉得问题出在哪里呢？

不卖关子了，《Python正则表达式\W+和\W*匹配过程的深入分析》的分析过程应该是没有问题的，问题出在输入的问号上，半角的问号被输入成了全角问号，导致匹配不到对应的搜索文本，所以就将原串作为列表的元素整个返回了。其实结果也告诉我们没有分割成功，结果中的元素只有一个，而不是两个，因为它们是一个单引号标记的字符串。只是才开始老猿没仔细看，把字符串中间的逗号看成了元素分割的逗号，才闹了这么个乌龙。上述语句真正的非贪婪模式执行结果如下：

>>> re.split('(\W*?)','Hello，world') #非贪婪模式
['', '', 'H', '', 'e', '', 'l', '', 'l', '', 'o', '', '', '，', '', '', 'w', '', 'o', '', 'r', '', 'l', '', 'd', '', '']

看起来与“re.split(’(\W*)’,‘Hello，world’)”贪婪模式的结果相同，其实还是有些不同的，这个不同点正好体现出贪婪模式和非贪婪模式的区别，具体是怎么回事感兴趣的可以分析一下。

这个案例类似的场景老猿遇到过多次，写出来聊博大家一笑。

老猿Python，跟老猿学Python!
博客地址：https://blog.csdn.net/LaoYuanPython
请大家多多支持，点赞、评论和加关注！谢谢！