Python爬虫(八)——正则表达式

Python爬虫(八)——正则表达式

概念

正则表达式(regular expression,RE)是一种通用的字符表达框架,用来简洁表达一组字符串的表达式。

作用

  • 表达文本类型的特征
  • 查找或替换一组字符串
  • 匹配字符串的全部或部分

使用

将符合正则表达式语法的字符串转换成正则表达式。

语法

正则表达式由字符和操作符构成

常用操作符

操作符 说明 实例
. 表示任何单个字符
[] 字符集,对单个字符给出取值范围 [abc]表示a、b、c,[a-z]表示a到z单个字符
[^] 非字符集,对单个字符给出排除范围 [^abc]表示非a或b或c的单个字符
* 克林闭包
+ 正闭包
? 前一个字符0次或1次拓展 a?表示Φ或a
| 左右表达式任意一个 ab|de表示ab或de
{m} 扩展前一个字符m次 ab{2}c表示abbc
{m,n} 扩展前一个字符m至n次(包含n) ab{1,2}c表示abc或abbc
^ 匹配字符串开头 ^abc表示abc且abc在字符串的开头
$ 匹配字符串结尾 abc$表示abc且abc在字符串的结尾
() 分组标记,内部只能使用 操作符(abc)表示abc,(abc|def)表示abc或def
\d 数字,等价于[0-9]
\w 单词字符,等价于[A-Za-z0-9]

使用

Re库是Python的标准库,主要用于字符串匹配。它使用raw string类型表示正则表达式。

调用:

import re

raw string不包含转义符,只用在普通string类型的字符串之前

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值