匹配HTML标签的正则:
r"</?\w+>"
邮箱的正则:
[0-9a-zA-Z_]{4,20}@openlab\.com
|符号在正则中的使用:
org
com
cn
io
……
或符号单个不建议使用,因为和[]的作用一样
而在多个词组中|必须写在一个(),表示一组
r"[0-9a-zA-Z_]{4,20}@openlab\.(com|org|cn|io|gov)"
分组:
正则表达式中二次筛选
分组:正则的二次筛选
s = "<div>这个是内容部分</div>"
r"<\w+>(.*)</\w+>"
正则表达式的表达模式:
贪婪模式|非贪婪模式【懒惰模式】
贪婪模式:尽可能多的去匹配结果
懒惰模式:只要匹配到结果,会立刻返回
*
+
?
{m,}
{m,n}
贪婪模式 <===> 懒惰模式
re模块中的一个常见方法:
compile
findall
finditer
split
match
search