前面使用正则表达式匹配了文本及属性,提取到了想要的内容,学习完之后,来回顾总结总结。
表达式的匹配规则:
\w 匹配字母、数字及下划线
\W 匹配不是字母、数字及下划线的字符
\s 匹配任意空白符,等价于[\t \n \r \f]
\S 匹配任意非空字符
\d 匹配任意数字,等价于[0-9]
\D 匹配任意非数字的字符
\A 匹配字符串开头
\Z 匹配字符串结尾,如果存在换行,只匹配换行前的结束字符串
\z 匹配字符产结尾,如果存在换行,同时还会匹配换行符
\G 匹配最后匹配完成的位置
\n 匹配一个换行符
\t 匹配一个制表符
^ 匹配一行字符串的开头
$ 匹配一行字符串的结尾
. 匹配任意字符,除了换行符,当re.DOTALL标志被指定时,则可以匹配包括换行符的任意字符
[…] 用来表示一组字符,单独列出,比如[amk]匹配a、m或k
[^…] 不在[ ]中的字符,比如[^abc]匹配除了a、b、c之外的字符
(*) 星号表示匹配0个或多个表达式
(+) 加号表示匹配一个或多个表达式
? 匹配0个或1个前面的正则表达式定义的片段,非贪婪方式
{n} 精确匹配n个前面的表达式
{n,m} 匹配n到m次由前面正则表达式定义的片段,贪婪方式
a|b 匹配a或b
( ) 匹配括号内的表达式,也表示一个组
match( )匹配方式
match()方法匹配,匹配方式为从头开始匹配,如果匹配则返回匹配成功的结果,一旦开头不对,则返回None,使用少。
实例:
#入re模块
import re
#自己写的一段代码
cntent= 'this is python 321 456'
#使用match方法匹配文本,^表示匹配以字符产开头,.*表示匹配任意字符
item = re.match