正则表达式是一种用编程方法做格式匹配过滤的工具,在信息过滤、处理的自动化中非常有用。python的正则表达式处理能力简单强大,非常好用。做个记录如下:
Python中掌管正则表达式的模块是re模块(import re)
re下的常用方法:
- re.match():从字符串头开始匹配,返回匹配对象(可以使用group方法)或None
- re.search():从字符串的任何位置开始匹配,返回匹配对象或None.
- re.findall():返回所有匹配的字符串列表
- re.finditer():返回所有匹配的字符串的迭代器。
- re.sub(‘模式’,‘替换成的字符串’,‘进行检索的字符串’)
匹配对象的内置方法:
- group(子组号):如果参数为空,则返回所有匹配的字符串,如果有参数,则返回对应的子组字符串。
- groups():返回所有匹配的子组字符串的集合元组
注意事项:
- r’\bthe’表示原始字符串,如果没有r,则‘\bthe’中\b表示ASCII中的退格符。
eg:
- 去除html标签,并提取其他内容的正则表达式写法:
m=re.search(‘(<.+>)*([^<]*)(<.+>)*’,string).group(2)