正则表达式

正则表达式

正则表达式,又称规则表达式,计算机科学的一个概念。正则表达式通常用来检索,替换马偕符合某个模式(规则)的文本。

  • 给定的字符串是否符合正则表达式的过滤逻辑
  • 通过正则表达式,从字符串中获得我们想要的特定的部分。

使用场景

  • 爬虫
  • 数据挖掘和分析

在Python中使用正则需要导入re

import re

首先我们来看两个例子来体验一下正则表达式的威力吧:

引入案例

在字符串中找到数字23,5,67而不是2,3,5,6,7

import re
a =  'ab23fd5g67'

m = r'[0-9]+'
num=re.findall(m,a)
print(num)
#输出
['23', '5', '67']

如果不使用正则表达式就会很麻烦。

在Python 术语中,主要有两种方法完成模式匹配:“搜索”(searching),即在字符串任意部分中搜索匹配的模式;而“匹配”(matching)是指判断一个字符串能否从起始处全部或者部分地匹配某个模式。搜索通过search()函数或方法来实现,而匹配通过调用match()函数或方法实现。总之,当涉及模式时,全部使用术语“匹配”;我们按照Python如何完成模式匹配的方式来区分“搜索”和“匹配”。

python正则表达式的基础

字符功能
.匹配任意一个字符(除了\n)
[]匹配[]中列举的字符串
\d匹配数字0-9
\D匹配非数字(\d取反)
\w匹配字,A-Z,a-z,0-9,_
\W\w取反
  • re.match(pattern, string, flags=0)
    • 作用:从字符串的开头匹配一个模式

    • 匹配成功,返回一个匹配成功的对象,否则返回None

    • 参数说明:

      • pattern:要匹配的正则表达式
      • string:要匹配的字符串
      • flags:标志位,用于控制正则表达式的匹配方式。比如是否匹配多行,是否区分大小写。
import re

m = re.match('.', 's')
print(m.group())

m = re.match('.', 'd')
print(m.group())

m = re.match('.', 'City')
print(m.group())
#输出
s
d
C
  • re.group([group1,…]) 字符串或者元组

    • 作用:获得一个或者多个分组截获的字符串
    • 指定多个参数时就会以元组形式返回
    • group1可以使用编号,也可以使用别名
    • 编号0代表匹配整个字符串,默认返回group([0])
    • 如果没有截获字符串,返回None。
    • 如果截获了多次的组,返回最后一次截获的子串
  • re.groups([default=None]) tuple

    • 作用:以元组形式返回全部分组截获的字符串。类似调用re.group(1,2,…,last)
    • 如果没有截获字符串的组,默认返回None
  • re.search(pattern, str, flags =0)

    • 作用:扫描整个字符串,返回第一次成功匹配的对象
    • 如果匹配失败,返回None
    • 参数:
      • pattern:要匹配的正则表达式
      • string:要匹配的字符串
      • flags:标志位,用于控制正则表达式的匹配方式。比如是否匹配多行,是否区分大小写。
    • re.match()和re.search()的区别:
      • re.match()从字符串开头开始匹配,如果匹配失败,None
      • re.search()匹配整个字符串直到找到一个匹配,如果匹配失败,None
  • re.findall(pattern, str, flags=0)

    • 作用:获取所有字符串中匹配的子串,并以列表形式返回
import re

print(re.findall('yun','Aliyun is a yun.'))
#输出
['yun', 'yun']
  • re.finditer(pattern,str,flags=0)
    • 作用:获取所有字符串中匹配的子串,并以迭代器形式返回
import re

print(list(re.finditer('yun','Aliyun is a yun.')))

for i in re.finditer('yun','Aliyun is a yun.'):
    print(i.group())
#输出
[<re.Match object; span=(3, 6), match='yun'>, <re.Match object; span=(12, 15), match='yun'>]
yun
yun

数量匹配规则

字符功能
*匹配前一个字符出现0次或者无限次,可有可无,可多可少
+匹配前一个字符出现1次或者无限次,一直到出现一次
?匹配前一个字符出现1次或者0次,要么1次,要么没有
{m}匹配前一个字符出现m次
{m,}匹配前一个字符至少出现m次
{m,n}匹配前一个字符出现m到n次
import re

m = re.match('[A-Z][a-z]*', 'AcitySDrd')
print(m.group())
#输出 Acity
m = re.match('[A-Z][a-z]*', 'AAcitySDrd')
print(m.group())
#输出 A  因为[A-Z]只能匹配一个,第二个位置开始是任意多个小写字母
m = re.match('[A-Z][a-z]?', 'AcitySDrd')
print(m.group())
#输出  Ac
m = re.match('[A-Z][a-z]?', 'AAcitySDrd')
print(m.group())
#输出  A
m = re.match('[A-Z][a-z]{4}', 'AcitySDrd')
print(m.group())
#输出  Acity
m = re.match('[A-Z][a-z]{3}', 'AcitySDrd')
print(m.group())
#输出  Acit
m = re.match('[A-Z][a-z]{3,10}', 'AcitySDrd')
print(m.group())
#输出  Acity
#匹配手机号
import re
pattern=input('请输入匹配规则:') #1[35678]\d{9}
sr=input('请输入匹配字符串:')    #13000000000
m = re.match(pattern,sr)
print(m.group())

表示边界

字符功能
^匹配字符串开头
$匹配字符串的结尾
\b匹配一个单词的边界
\B匹配非单词边界
import re
pattern='^\w+\s\\bty\\b\s\w+'
sr='ci ty university'
m = re.match(pattern,sr)
print(m.group())
#输出
ci ty university

匹配分组

字符功能
|匹配左右任意一个表达式
(ab)将括号中的字符作为一个分组
\num引用分组num匹配到的字符串
(?P<name>)分组起别名
(?P=name)引用别名为name分组匹配到的字符串
#匹配1-100的数
import re

pattern=r'[1-9]\d{0,1}$|100$|0$'
sr='100'
m = re.match(pattern,sr)
print(m.group())
#输出
100
import re

sr = '<h1>hello world!1</h1><h1>hello world!2</h1><h1>hello world!3</h1>'
pattern = '<h1>(.*)</h1><h1>(.*)</h1><h1>(.*)</h1>'
m = re.match(pattern, sr)
print(m.group())
print(m.group(1))
print(m.groups())
#输出
<h1>hello world!1</h1><h1>hello world!2</h1><h1>hello world!3</h1>
hello world!2
('hello world!1', 'hello world!2', 'hello world!3')
import re

sr = '<span><h1>hello world!</h1></span>'
pattern = r'<(\D{4})><(.{2})>(.*)</\2></\1>'
m = re.match(pattern, sr)
print(m.group())
print(m.group(1))
print(m.groups())
#输出
<span><h1>hello world!</h1></span>
span
('span', 'h1', 'hello world!')
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值