python的正则表达式'\w'居然可以匹配中文

最新推荐文章于 2023-01-17 14:41:50 发布

frostjsy

最新推荐文章于 2023-01-17 14:41:50 发布

阅读量2.8k

点赞数 5

分类专栏：自然语言处理文章标签：正则表达式个人小结

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013069552/article/details/92846390

版权

自然语言处理专栏收录该内容

33 篇文章 25 订阅

订阅专栏

一、正则表达式总结较好的网址

https://www.jb51.net/tools/regexsc.htm

二、正则表达式先行断言和后行断言问题详解

https://www.cnblogs.com/sdgjytu/p/3669364.html

(?=pattern) 正向先行断言
代表字符串中的一个位置，紧接该位置之后的字符序列能够匹配pattern。

(?!pattern) 负向先行断言
代表字符串中的一个位置，紧接该位置之后的字符序列不能匹配pattern。

(?<=pattern) 正向后行断言
代表字符串中的一个位置，紧接该位置之前的字符序列能够匹配pattern。

(?<!pattern) 负向后行断言
代表字符串中的一个位置，紧接该位置之前的字符序列不能匹配pattern。

三、\w居然能匹配汉字（我的版本python3）

patt=re.compile(r'\w')

patt.findall('中国人asdfg123&&&&中国万岁\n')

结果：

['中', '国', '人', 'a', 's', 'd', 'f', 'g', '1', '2', '3', '中', '国', '万', '岁']

网上有解释说：\w匹配的是能组成单词的字符，在python3 中re默认支持的是unicode字符集，当然也支持汉字
如果要让\w仅支持英文，加个re.A标志
print(re.findall(r"\w",s,re.A))
这样就不会匹配汉字了

关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
2
评论
python的正则表达式'\w'居然可以匹配中文

一、正则表达式总结较好的网址https://www.jb51.net/tools/regexsc.htm二、正则表达式先行断言和后行断言问题详解https://www.cnblogs.com/sdgjytu/p/3669364.html(?=pattern) 正向先行断言代表字符串中的一个位置，紧接该位置之后的字符序列能够匹配pattern。(?!pattern) 负向先...
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。