Python:模式匹配与正则表达式(三)

本文通过一个Python项目展示了如何使用正则表达式从剪贴板文本中提取电话号码和电子邮件地址。详细步骤包括创建匹配电话和邮箱的正则表达式,搜索匹配项,并将结果复制回剪贴板。
摘要由CSDN通过智能技术生成

目录

前言

1、项目内容

2、实际步骤

2.1为电话号码创建一个正则表达式

2.2为E-mail地址创建一个正则表达式

2.3在剪贴板文本中找到所有匹配

2.4所有匹配连接成一个字符串,复制到剪贴板

2.5运行这个程序

2.6类似程序的构想

2.7小结



前言

本文内容及代码源自《Python编程快速上手—让繁琐工作自动化》,目的在于记录学习过程及内容,方便后续查看,接着学习模式匹配与正则表达式的内容。

这一部分将通过一个项目实战来巩固之前所学习的正则表达式知识。


1、项目内容

在一篇长的网页或文章中,找出所有电话号码和邮件地址。

希望通过程序,在剪贴板的文本中查找电话号码和E-mail地址,那么只需要Ctrl-A选择所有文本,按下Ctrl-C将它复制到剪贴板,然后运行程序,它就会用找到的电话号码和E-mail地址,替换掉剪切板的文本。

电话号码和E-mail地址提取程序需要完成以下任务:

  • 从剪贴板取得文本。
  • 找出文本中所有的电话号码和E-mail地址。
  • 将它们粘贴到剪贴板。

代码需要完成的工作:

  • 使用pyperclip模块复制和粘贴匹配字符串。
  • 创建两个正则表达式,一个匹配电话号码,另一个匹配E-mail地址。
  • 对两个正则表达式,找出所有的匹配,而不只是第一次匹配。
  • 将匹配的字符串整理好格式,放在一个字符串中,用于粘贴。
  • 如果文本没有找到匹配,显示某种消息。

2、实际步骤

2.1为电话号码创建一个正则表达式

  1. 电话号码从一个“可选的”区号开始,所以区号分组跟着一个问号。因为区号可能只是 3 个数字(即\d{3}),或括号中的 3 个数字(即\(\d{3}\)),所以应该用管道符号连接这两部分。
  2. 电话号码分割字符可以是空格(\s)、短横(-)或句点(.),所以这些部分也应该用管道连接。
  3. 这个正则表达式接下来的几部分很简单:3 个数字,接下来是另一个分割符,接下来是 4 个数字。
  4. 最后的部分是可选的分机号,包括任意数目的空格,接着 ext、x 或 ext.,再接着 2 到 5 位数字。
#为电话号码创建一个正则表达式
phoneRegex = re.compile(r'''(
 (\d{3}|\(\d{3}\))? # 区号
 (\s|-|\.)? # 电话号码分隔符
 (\d{3}) # 前3位数字
 (\s|-|\.) # 分隔符
 (\d{4}) # 后4个数字
 (\s*(ext|x|ext.)\s*(\d{2,5}))? # 可选的分机号
 )''', re.VERBOSE)

2.2为E-mail地址创建一个正则表达式

  1. E-mail 地址的用户名部分是一个或多个字符,字符可以包括:小写和大写字母、数字、句点、下划线、百分号、加号或短横。可以将所有这些放入一个字符分类:[a-zA-Z0-9._%+-]
  2. 域名和用户名用@符号分割,域名允许的字符分类要少一些,只允许字母、数字、句点和短横:[a-zA-Z0-9.-]。
  3. 最后是“dot-com”部分(技术上称为“顶级域名”),它实际上可以是“dot-anything”。它有 2 到 4 个字符。
  4. E-mail 地址的格式有许多奇怪的规则。这个正则表达式不会匹配所有可能的、有效的 E-mail 地址,但它会匹配遇到的大多数典型的电子邮件地址。
#为 E-mail 地址创建一个正则表达式
emailRegex = re.compile(r'''(
    [a-zA-Z
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值