原文来自FishC。
常见问题
1)使用正则表达式虽说通吃,但有的时候直接使用字符串的方法也是个不错的选择。
2)match()只会报告一次成功的匹配,并且匹配的位置必须是从字符串的第一个字符开始;search()函数遍历整个字符串,并报告它找到的第一个匹配;
3)贪婪VS非贪婪:当重复一个正则表达式时,如果使用a*,那么结果是尽可能多的去匹配,如尝试匹配一对对称的界定符(HTML标志中的尖括号),默认的贪婪模式就不适合。在这种情况下,使用费贪婪的限定符*?,+?,??或{m,n}?,尽可能的匹配小的文本。
4)想要清晰,宜读的正则表达式,需要指定re.VERBOSE标志,它允许编辑正则表达式的格式,使之更清晰;在正则表达式中的空白字符将被忽略;可以添加注释,注释从#开始到下一行;当使用三引号字符串时,会使REs的格式更整洁:
pat=re.compile(r"""
\s* #Skip leading whitespace
(?P<header>[^:]+) #header name
\s* : #Whitespace,and a colon
(?P<value>.*?) #the header's value -- *? used to
#lose the following training whitespace
\s*$ #Training whitespace to end-of-line
""",re.VERBOSE)
同样的内容,下边这个要难读的多:
pat=re.compile(r"\s*(?P<header>[^:]+)\s*:(?P<value>.*?)\s*$")