关于Python正则表达式中单词边界匹配的问题

CoderSaru

已于 2022-03-20 13:47:00 修改

阅读量817

点赞数 1

文章标签： python 正则表达式

于 2022-03-20 13:35:59 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_38371226/article/details/123611400

版权

我们都知道，Python中边界匹配用的是’\b’，那么如下的正则应该能匹配出‘tag’字符串。

re.findall(r'\btag\b', '带tag#tag内容#')

实际上呢，这是不行的。原因是，Python3的正则匹配编码模式，使用了和C语言一样的规则，即**’\w’不仅包含数字、字母、下划线，还包含unicode的许多汉字**（Java和JS则不包含汉字）。
而Python的边界匹配，本质上就是判断边界处是否为’\w’，如果是，则成为边界。
所以在上述代码中，‘tag’前后的‘带’、‘内’不被视为单词边界，所以匹配失败。如果我们在‘带’和‘tag’、‘tag’和‘内’之间分别加一个空格，就可以成功匹配了。当然你加任何非数字、字母、下滑线、unicode汉字都可以。
要解决上述问题，只需要将匹配编码模式设定为re.A，二进制匹配即可。

re.findall(r'\btag\b', '带tag#tag内容#', re.A)

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
关于Python正则表达式中单词边界匹配的问题

我们都知道，Python中边界匹配用的是’\b’，那么如下的正则应该能匹配出‘tag’字符串。re.findall(r'\btag\b', '带tag#tag内容#')实际上呢，这是不行的。原因是，Python的正则匹配，使用了和C语言一样的规则，即**’\w’不仅包含数字、字母、下划线，还包含unicode的许多汉字**（Java和JS则不包含汉字）。而Python的边界匹配，本质上就是判断边界处是否为’\w’，如果是，则成为边界。所以在上述代码中，‘tag’前后的‘带’、‘内’不被视为单词边界
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。