正则表达式

正则表达式

正则表达式,又称为规则表达式,(英语:Regular Expression,在代码中简写为regex、regexp或RE)计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

  • 给定的字符串是否符合正则表达式的过滤逻辑(匹配)

  • 通过正则表达式,从字符串中获得我们想要的特定部分。

使用场景

  • 爬虫
  • 数据挖掘和分析

在Python中使用正则需要导入re

import re

首先我们来看两个例子来体验一下正则表达式的威力吧:

引入案例1

比如,已知一个列表:

​ li = [“Chinese”, “China”, “English”, “Britain”, “Canada”, “New Zealand”]

找出以Ch开头的字串。

# 法1
li = ["Chinese", "China", "English", "Britain", "Canada", "New Zealand"]
lt = []
for i in li:
	if i[0:2] == "Ch":
		lt.append(i)
print(lt)
# 法2
li = ["Chinese", "China", "English", "Britain", "Canada", "New Zealand"]
print([i for i in li if i[0:2]=="Ch"])

假如存在a=“ab23fg5g67”,提取23,5,67,如何实现?

正则

>>> import re
>>> a="ab23fg5g67"
>>> m=r'[0-9]+'
>>> num=re.findall(m,a)
>>> num
['23', '5', '67']

Python正则表达式的基础

单字符匹配规则

字符功能
.匹配任意一个字符(除了\n)
[]匹配[]中列举的字符
\d匹配数字(0-9)
\D匹配非数字(\d取反)
\w匹配字符,A-Z,a-z,0-9
\W\w取反
字符功能
*匹配前一个字符出现0次多次或者无限次,可有可无,可多可少
+匹配前一个字符出现1次多次或者无限次,直到出现一次
匹配前一个字符出现1次或者0次,要么有1一次,要么没有
{m}匹配前一个字符出现m次
{m,}匹配前一个字符至少出现m次
{m,n}匹配前一个字符出现m到n次

表示边界 (boundary)

字符功能
^匹配字符串开头
$匹配字符串结尾
\b匹配一个单词的边界
\B匹配非单词的边界

匹配分组

字符功能
|匹配左右任意一个表达式
(ab)将括号中的字符作为一个分组
\num引用分组num匹配到的字符串
(?P)分组起别名
(?P=name)引用别名为name分组匹配到的字符串
  • re.match(pattern,string,flags=0)

    • 作用:从字符串的开头开始匹配一个模式

      • 匹配成功,返回一个匹配成功的对象
      • 否则,返回None
    • 参数说明:

      • pattern:匹配的正则表达式
      • string:要匹配的字符串
      • flags:标志位,用于控制正则表达式的匹配方式。比如是否匹配多行,是否区分大小写。
  • re.group([group1,…])字符串或者元组

    • 作用:获得一个或者多个分组截获的字符串
    • 指定多个参数时就会以元组形式返回
    • group1可以使用编号,也可以使用别名
    • 编号0代表匹配整个子串,默认返回group(0)
    • 如果没有截获字符串,返回None
    • 截获了多次的组,返回最后一次截获的子串
  • re.groups([default=None]) tuple

  • 作用:以元组形式返回全部分组截获的字符串

  • 如果没有成功匹配,返回一个空元组

.

import re
m=re.match('.','s')
print(m.group())#s

m=re.match('.','d')
print(m.group())#d

m=re.match('.','city')
print(m.group())#c

m=re.match('.','\n')
print(m.group())#AttributeError: 'NoneType' object has no attribute 'group'
  • re.search(pattern,str,flags=0)
    • 作用:扫描整个字符串,返回第一次成功匹配的对象
    • 如果匹配失败,返回None
    • 参数

re.findall(pattern,str,flags=0)

  • 作用:获取字符串所有匹配的子串,并以列表形式返回。

re.funditer(pattern,str,flags=0)

  • 作用:获取字符串所有匹配的子串,并返回一个迭代器。

re.match()和re.search()的区别

  • re.match()从字符串开头开始匹配,如果匹配失败,None;
  • re.search()匹配整个字符串,直到找到一个匹配,如果匹配失败,None。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值