开始看正则表达式的时候就有这个疑惑,为什么百度百科上这样说?
这得先明白unicode字符集,当然也可以先搞明白汉字和英文以及数字是什么字符集?Unicode 字符百科
汉字在unicode表中是4e00-9fa5
英文,数字和特殊符号属于unicode中的拉丁文
因此\w就比[A-Za-z0-9_]的范围大得多,比如能匹配其他国家的文字,而\d能匹配其他国家的数字。
不止\w和\d的范围是这样,正则元字符中的 . \W,\D,\s,\S,\b,\B也能匹配到其他的文字,那怎样不匹配到所有的Unicode字符呢?
通过re.ASCII来设置只匹配ASCII字符
import re
#扩充阿拉伯-印度文数字
s="۱۲۳۴۵۶۷۸۹"
print(s.isdigit())
a= re.match(r'\d+', s)
print(a.group())
#True
#蒙古文
d = 'ᠠᠡᠢᠣᠤᠶᠿ'
b= re.match(r'\w+', d) #匹配字母数字下划线
print(b.group())
#۱۲۳۴۵۶۷۸۹
#蒙古文
d = 'ᠠᠡᠢᠣᠤᠶᠿ'
b= re.match(r'\D+', d) #匹配一个非数字
print(b.group())
#ᠠᠡᠢᠣᠤᠶᠿ
#蒙古文
d = 'ᠠᠡᠢᠣᠤᠶᠿ'
b= re.match(r'\S+', d) #匹配一个可见字符
print(b.group())
#ᠠᠡᠢᠣᠤᠶᠿ
s="۱۲۳۴۵۶۷۸۹"
print(s.isdigit())
a= re.match(r'.+', s)
print(a.group())
#蒙古文
d = 'ᠠᠡᠢᠣᠤᠶᠿᠢᠣᠤ'
b= re.findall(r'\bᠠᠡ', d) #匹配一个单词边界
print(b)
# ['ᠠᠡ']
经过re.ASCII设置, \w再去匹配蒙古文是匹配不到任何东西的
#蒙古文
d = 'ᠠᠡᠢᠣᠤᠶᠿᠢᠣᠤ'
b= re.findall(r'\wᠠᠡ', d,re.ASCII)#匹配一个单词边界,限定在ASCII中
print(b)
# [] 匹配不到任何东西