Python 学习笔记-第4讲:正则表达式和列表

一、正则表达式

1. 定义

正则表达式 (regular expression)是一种非常强大的字符串操作工具。

啥是“正则”呢,瞅着汉字审视半天也没想明白到底是啥意思,还是看看它的英文本体长啥样吧:“regular expression”?规则的、有规律的表达式?到底是哪位“科学家”给翻译出“正则”这么高大上的名字的!分明就不想让中国人看懂嘛。

2. 用途:

这种“符合一定规则的、有规律的表达式”能干嘛呢?百度百科是这样讲的:

    给定一个正则表达式和另一个字符串,我们可以达到如下的目的:
    1. 给定的字符串是否符合正则表达式的过滤逻辑(称作“匹配”):        # 1. 格式判断,比如判断电子邮件地址是否符合格式要求
    2. 可以通过正则表达式,从字符串中获取我们想要的特定部分。               # 2. 提取数据,爬虫是不是就是干这个呀

3. Python 中的 re 模块

必须首先导入 re 模块,然后才能使用相关的正则表达式函数和方法。

4. 正则表达式中的通配符(元字符)

  • .                    匹配任意字符(不包括换行符)
  • ^                    匹配开始位置,多行模式下匹配每一行的开始
  • $                    匹配结束位置,多行模式下匹配每一行的结束
  • *                    匹配前一个元字符0到多次
  • +                    匹配前一个元字符1到多次
  • ?                    匹配前一个元字符0到1次
  • {m,n}                匹配前一个元字符m到n次
  • \\                   转义字符,跟在其后的字符将失去作为特殊元字符的含义,例如\\.只能匹配.,不能再匹配任意字符
  • []                   字符集,一个字符的集合,可匹配其中任意一个字符
  • |                    逻辑表达式 或 ,比如 a|b 代表可匹配 a 或者 b
  • (...)                分组,默认为捕获,即被分组的内容可以被单独取出,默认每个分组有个索引,从 1 开始,按照"("的顺序决定索引值
  • (?iLmsux)            分组中可以设置模式,iLmsux之中的每个字符代表一个模式,用法参见 模式 I
  • (?:...)              分组的不捕获模式,计算索引时会跳过这个分组
  • (?P<name>...)        分组的命名模式,取此分组中的内容时可以使用索引也可以使用name
  • (?P=name)            分组的引用模式,可在同一个正则表达式用引用前面命名过的正则
  • (?#...)              注释,不影响正则表达式其它部分,用法参见 模式 I
  • (?=...)              顺序肯定环视,表示所在位置右侧能够匹配括号内正则
  • (?!...)              顺序否定环视,表示所在位置右侧不能匹配括号内正则
  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值