\w和[A-Za-z0-9_],\d和[0-9]等价吗？

李木子木子

已于 2022-06-09 10:37:35 修改

阅读量483

点赞数

分类专栏：正则表达式文章标签：正则表达式

于 2022-06-01 15:47:25 首次发布

本文链接：https://blog.csdn.net/qq_43504837/article/details/125084263

版权

正则表达式专栏收录该内容

3 篇文章 0 订阅

订阅专栏

开始看正则表达式的时候就有这个疑惑，为什么百度百科上这样说？
在这里插入图片描述这得先明白unicode字符集，当然也可以先搞明白汉字和英文以及数字是什么字符集？Unicode 字符百科
汉字在unicode表中是4e00-9fa5
英文，数字和特殊符号属于unicode中的拉丁文
因此\w就比[A-Za-z0-9_]的范围大得多，比如能匹配其他国家的文字，而\d能匹配其他国家的数字。
不止\w和\d的范围是这样，正则元字符中的 . \W,\D,\s,\S,\b,\B也能匹配到其他的文字,那怎样不匹配到所有的Unicode字符呢？
通过re.ASCII来设置只匹配ASCII字符

import re

#扩充阿拉伯-印度文数字
s="۱۲۳۴۵۶۷۸۹"
print(s.isdigit())
a= re.match(r'\d+', s)
print(a.group())  
#True


#蒙古文
d = 'ᠠᠡᠢᠣᠤᠶᠿ'
b= re.match(r'\w+', d) #匹配字母数字下划线
print(b.group())
#۱۲۳۴۵۶۷۸۹

#蒙古文
d = 'ᠠᠡᠢᠣᠤᠶᠿ'
b= re.match(r'\D+', d) #匹配一个非数字
print(b.group())
#ᠠᠡᠢᠣᠤᠶᠿ

#蒙古文
d = 'ᠠᠡᠢᠣᠤᠶᠿ'
b= re.match(r'\S+', d) #匹配一个可见字符
print(b.group())
#ᠠᠡᠢᠣᠤᠶᠿ

s="۱۲۳۴۵۶۷۸۹"
print(s.isdigit())
a= re.match(r'.+', s)
print(a.group())  


#蒙古文
d = 'ᠠᠡᠢᠣᠤᠶᠿᠢᠣᠤ'
b= re.findall(r'\bᠠᠡ', d) #匹配一个单词边界
print(b)
# ['ᠠᠡ']

经过re.ASCII设置， \w再去匹配蒙古文是匹配不到任何东西的

#蒙古文
d = 'ᠠᠡᠢᠣᠤᠶᠿᠢᠣᠤ'
b= re.findall(r'\wᠠᠡ', d,re.ASCII)#匹配一个单词边界,限定在ASCII中
print(b)
# [] 匹配不到任何东西

李木子木子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
\w和[A-Za-z0-9_],\d和[0-9]等价吗？

开始看正则表达式的时候就有这个疑惑，为什么百度百科上这样说？这得先明白unicode字符集，当然也可以先搞明白汉字和英文以及数字是什么字符集？Unicode 字符百科汉字在unicode表中是4e00-9fa5英文，数字和特殊符号属于unicode中的拉丁文因此\w就比[A-Za-z0-9_]的范围大得多，比如能匹配其他国家的文字，而\d能匹配其他国家的数字。不止\w和\d的范围是这样，正则元字符中的 . \S \D也能匹配到其他的文字。...
复制链接

扫一扫