- 制表符(\t)、空格、换行(\n)等,均可视为一种空白符,
- 则一个或多个空白符的 regex 即是:
\s+
- 则一个或多个空白符的 regex 即是:
1. 通配符
- ?:与任意一个实际字符匹配,
- *:可以去任意一串字符(可以为空)匹配
例如:
- *.py 描述的是所有最后三个字符是
.py
的文件名; - f*.*:以
f
开头,任意多字符串由.
隔开; - a?b:3 个字符的串,首字符是 a,尾字符是 b,中间的字符任意;
从集合的观点,a* 描述了所有以 a 开头的字符串,这是一个无穷集合。
2. 正则表达式
- Regular Expression,也被简写为 regex,regexp,或者 RE/re;
- 正则表达式是一种描述字符串集合的语言;
3. 贪婪匹配与惰性匹配
正则表达式中,星号加问号是匹配什么(分开我知道),比如/A*?/究竟匹配的是什么
- 像+ * ? 以及{M,N}(最少 M 次,最多 N 次),这几种量词(匹配数量)默认是属于贪婪量词,进行贪婪匹配,即为尽可能多地匹配,直到不能再匹配;
- 有时我们却需要尽可能少地匹配,如对
<span>a</span><span>b</span>
,我们仅想匹配第一对<span>a</span>
,如果使用了贪婪量词(<span>a</span>
),则会匹配<span>a</span><span>b</span>
, - 懒惰量词与贪婪量词的差别就是在贪婪量词的后面加个?号,就构成了懒惰量词
- A* ⇒ A*?(什么也不匹配)
- A+⇒ A+?(匹配一次 A)
- A? ⇒ A??(什么也不匹配)
- A{M,N} ⇒ A{M,N}?(匹配 M 次 A)