Python---爬虫---解析---正则表达式(re)

预定义字符集

  1. \d[0,9],\D取反

  2. \s[空格\r\f\t\n\v](空白字符),\S取反

  3. \w[A-Za-z0-9_],\W取反

字符

  1. re.findall(".","\n",re.DOTALL(可以匹配换行符)/re.S(DOTALL的缩写)),在DOTALL模式中 . 可以匹配换行符。
  2. \ 反斜杠转义 , a[a,b,c]z或者| (或者abc|acb|ade)

  3. . 可以匹配 除\n外的所有字符

数量词

  1. * 匹配前一个字符0或无限次

  2. +匹配前一个字符1或无限次

  3. ?匹配前一个字符0或1次

  4. {m}匹配前一个字符m次

常用的方法

  1. p.match(),从开头找一个,第一个匹配不到,不会匹配

  2. p.search(),任何位置开始找,找一个匹配的后不找

  3. p.findall()找所有

  4. p.sub(替换)

  5. p.compile(编译),将正则表达式编译为内部格式,从而更快地执行,re.complie(".",re.S(需要把模式放到参数里))

  6. r 转换为原始字符(\n不代表换行符)

  7. r"a\nbc" 输出为a\\nbc 共5个字符

  8. re.finall(r“a///nb”,"a///nb")

边界匹配

  1. \b :表示字母数字与非字母数字的边界,     非字母数字与字母数字的边界。\B:表示字母数字与(非非)字母数字的边界,非字母数字与非字母数字的边界。

小记

  1. 正则表达式匹配所有字符包括换行符\n,. 是匹配除过\n 之外的全部自符,用[\d\D] 匹配所有字符。或者是[\s\S]

  2. 正则练习网站

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值