九、正则表达式详解:掌握强大的文本处理工具(一)

🍀引言

正则表达式(Regular Expression)是一种强大的文本处理工具,常用于搜索、匹配和替换操作。它使用一种特定的语法来描述文本模式,并可应用于多种编程语言和文本编辑器中。本博客将详细介绍正则表达式的基本语法、常用操作符和实例应用,帮助你掌握这一强大工具。

其实大体来说就是使用表达式将符合条件的字符串进行提取
希望我们能从易到难,从语法到实践的思路去学习,把它攻下来


🍀正则表达式的基本语法

正则表达式由普通字符和特殊字符构成。常见的特殊字符包括元字符、字符类和重复限定符。以下是一些常用的特殊字符:

  • 元字符:用于匹配特定的字符或字符集合,如==.(点)==匹配任意单个字符,\d匹配任意数字等。
  • 字符类:用于匹配一组字符中的任意一个字符,如[abc]匹配字符’a’、‘b’或’c’。
  • 重复限定符:用于指定匹配的次数,如*表示匹配零次或多次,+表示匹配一次或多次等。
    基本语法的了解是学习正则表达式的第一步,它为后续的高级应用打下了基础。

🍀常用操作符

正则表达式中常用的操作符包括:

  • 匹配操作符:^表示匹配字符串开头,$表示匹配字符串结尾。
  • 选择操作符:|表示或操作,用于在多个模式之间选择一个。
  • 分组操作符:()用于将一组模式组合为一个整体,并可对其进行操作,如获取匹配结果、进行重复操作等。

这些操作符的灵活运用,可以实现更复杂的字符串匹配和替换需求


🍀实例应用

正则表达式的应用非常广泛,以下是一些常见场景的实例应用:

  • 邮箱验证:使用正则表达式来验证用户输入的邮箱是否符合规范,如是否包含@符号和顶级域名。
  • URL提取:从一段文本中提取出所有的URL链接,可以使用正则表达式匹配特定的URL模式。
  • 数据清洗:处理文本中的特殊字符、空白符或不规范的格式,使用正则表达式进行替换或删除操作。
  • 日志分析:通过正则表达式匹配特定的日志模式,提取出关键信息,如时间戳、错误代码等。

正则表达式在数据处理、文本搜索和日志分析等领域发挥着重要作用,掌握它将使你的工作更高效、准确。

🍀具体操作演示

  1. 匹配某个字符串:match()
import re

text = 'Hello Word'
result = re.match('H', text)
print(result)

这样输出的结果是一个对象

在这里插入图片描述
只有使用group()方法,才可以将其打印

print(result.group())

在这里插入图片描述
这时如果我们将表达式改一下,那么会打印出结果么

import re

text = 'Hello Word'
result = re.match('H0', text)
print(result.group())

显而易见会报错
在这里插入图片描述

注意:match()是从起始位置进行匹配的

  1. 点(.)

下面进行一些例子演示

import re

text = '1Hello Word'
text1 = '_Hello Word'
text2= '\nHello Word'
result = re.match('.', text)
result1 = re.match('.', text1)
result2 = re.match('.', text2)
print(result.group())
print("*"*10)
print(result1.group())
print("*"*10)
print(result2.group())

运行结果如下
在这里插入图片描述
注意:无法匹配换行符、从起始位置开始匹配

  1. \d匹配任意某个数字
import re

text = '1Hello Word'
text1 = 'Hello8 Word'
text2= 'Hello Word'
result = re.match('\d', text)
result1 = re.match('\d', text1)
result2 = re.match('\d', text2)
print(result.group())
print("*"*10)
print(result1.group())
print("*"*10)
print(result2.group())

运行结果如下
在这里插入图片描述
注意:只能匹配数字、从起始位置开始

  1. \D:除数字外均可匹配
import re

text = '_Hello Word'
text1 = '8Hello Word'
result = re.match('\D', text)
result1 = re.match('\D', text1)
print(result.group())
print(result1.group())

运行结果如下

在这里插入图片描述
注意:除了数字以外的内容均可以匹配、从起始位置开始
\d和\D可以认为是互补的关系

  1. \s(小写):匹配空白字符
import re

text = '\nHello Word'
result = re.match('\s', text)
print(result.group(),len(result.group()))

运行结果如下

在这里插入图片描述
注意:匹配空白字符、从起始位置开始、\n、\t、\r、空格

  1. \w(小写):匹配小写的a-z,大写的A-Z,数字和下划线
import re

text = '\nHello Word'
text1 = 'Hello Word'
result = re.match('\w', text)
result1 = re.match('\w', text1)
print(result1.group())
print(result.group())

运行结果如下
在这里插入图片描述
注意:匹配小写的a-z,大写的A-Z,数字和下划线,从起始位置开始,除去上述的都无法匹配(如中文,中文符号等)

  1. \W:匹配除小写\w之外的所有字符
import re

text = '#Hello Word'
text1 = 'Hello Word'
result = re.match('\W', text)
result1 = re.match('\W', text1)
print(result.group())
print(result1.group())

运行结果如下
在这里插入图片描述

注意:匹配\w以后的所有字符
\w和\W可以认为是互补的

  1. [ ]:->>组合的方式,只要在中括号内的内容均可匹配
import re

text = '#Hello Word'
text1 = 'Hello Word'
result = re.match('[#]', text)
result1 = re.match('[el]', text1)
print(result.group())
print(result1.group())

运行结果如下
在这里插入图片描述
注意:[]内的内容都可以匹配、[]内多个匹配内容时,取“或”,只要匹配对象中年含有其中一个内容就匹配、从起始位置开始

下节继续!

请添加图片描述

挑战与创造都是很痛苦的,但是很充实。

  • 6
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小馒头学python

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值