比较详细Python正则表达式操作指南(re使用)[8]

前向界定符

另一个零宽界定符(zero-width assertion)是前向界定符。前向界定符包括前向肯定界定符和後向肯定界定符,所下所示:

(?=...)

前向肯定界定符。如果所含正则表达式,以 ... 表示,在当前位置成功匹配时成功,否则失败。但一旦所含表达式已经尝试,匹配引擎根本没有提高;模式的剩馀部分还要尝试界定符的右边。

(?!...)

前向否定界定符。与肯定界定符相反;当所含表达式不能在字符串当前位置匹配时成功


通过示范在哪前向可以成功有助于具体实现。考虑一个简单的模式用于匹配一个文件名,并将其通过 "." 分成基本名和扩展名两部分。如在 "news.rc" 中,"news" 是基本名,"rc" 是文件的扩展名。


匹配模式非常简单:

.*[.].*$

注意 "." 需要特殊对待,因为它是一个元字符;我把它放在一个字符类中。另外注意後面的 $; 添加这个是为了确保字符串所有的剩馀部分必须被包含在扩展名中。这个正则表达式匹配

"foo.bar""autoexec.bat" "sendmail.cf"  "printers.conf"

现在,考虑把问题变得复杂点;如果你想匹配的扩展名不是 "bat" 的文件名?一些不正确的尝试:

.*[.][^b].*$

上面的第一次去除 "bat" 的尝试是要求扩展名的第一个字符不是 "b"。这是错误的,因为该模式也不能匹配 "foo.bar"。

.*[.]([^b]..|.[^a].|..[^t])$

当你试着修补第一个解决方法而要求匹配下列情况之一时表达式更乱了:扩展名的第一个字符不是 "b"; 第二个字符不是 "a";或第三个字符不是 "t"。这样可以接受 "foo.bar" 而拒绝 "autoexec.bat",但这要求只能是三个字符的扩展名而不接受两个字符的扩展名如 "sendmail.cf"。我们将在努力修补它时再次把该模式变得复杂。

.*[.]([^b].?.?|.[^a]?.?|..?[^t]?)$

在第三次尝试中,第二和第三个字母都变成可选,为的是允许匹配比三个字符更短的扩展名,如 "sendmail.cf"。


该模式现在变得非常复杂,这使它很难读懂。更糟的是,如果问题变化了,你想扩展名不是 "bat" 和 "exe",该模式甚至会变得更复杂和混乱。


前向否定把所有这些裁剪成:

.*[.](?!bat$).*$

前向的意思:如果表达式 bat 在这里没有匹配,尝试模式的其馀部分;如果 bat$ 匹配,整个模式将失败。後面的 $ 被要求是为了确保象 "sample.batch" 这样扩展名以 "bat" 开头的会被允许。


将另一个文件扩展名排除在外现在也容易;简单地将其做为可选项放在界定符中。下面的这个模式将以 "bat" 或 "exe" 结尾的文件名排除在外。

.*[.](?!bat$|exe$).*$

修改字符串

到目前为止,我们简单地搜索了一个静态字符串。正则表达式通常也用不同的方式,通过下面的 `RegexObject` 方法,来修改字符串。

 

方法/属性作用
split()将字符串在 RE 匹配的地方分片并生成一个列表,
sub()找到 RE 匹配的所有子串,并将其用一个不同的字符串替换
subn()与 sub() 相同,但返回新的字符串和替换次数

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Python中的re模块提供了一种用于处理正则表达式的工具。其中,compile函数可以将正则表达式编译为一个正则对象,从而提高正则表达式的效率。 compile函数的语法如下: re.compile(pattern, flags=0) 其中,参数pattern代表要编译的正则表达式,flags代表可选的标志位,用于控制正则表达式的匹配方式。 使用compile函数可以将多次使用正则表达式进行编译,从而提高程序的效率。在实际开发中,如果需要对一个字符串进行多次匹配操作,建议使用compile函数预编译正则表达式。 例如,假设要匹配所有以字母开头、后跟数字的字符串,可以使用如下代码: ```python import re # 编译正则表达式 pattern = re.compile(r"[a-zA-Z]\d+") # 匹配字符串 result = pattern.findall("A123 B456 C789") print(result) # 输出: ['A123', 'B456', 'C789'] ``` 在上面的代码中,首先使用compile函数编译了正则表达式r"[a-zA-Z]\d+",然后使用findall方法匹配字符串"A123 B456 C789",返回了所有符合条件的子串。 总之,compile函数是一个非常有用的正则表达式工具,可以提高正则表达式的效率,减少不必要的匹配操作,从而在实际开发中发挥作用。 ### 回答2: 在Python中,re模块是用于正则表达式操作的标准库。而re中的compile函数是用于将字符串形式的正则表达式编译成一个正则表达式对象,以便在之后的匹配中可以直接使用该对象。 使用compile函数编译正则表达式可以提高匹配效率,特别是在需要重复匹配同一个表达式时。因为每次使用正则表达式匹配都需要重新构建正则表达式的解析树,而使用compile函数编译正则表达式就可以把解析树缓存起来,在需要匹配时可以直接调用缓存的解析树,从而提高了匹配效率。 具体使用方法,可以先使用compile函数将正则表达式编译成一个对象,然后使用该对象的match、search、findall等方法进行匹配操作。例如: import re pattern = re.compile(r'\d+') # 编译正则表达式 result = pattern.findall('hello123world456') # 使用编译后的正则表达式对象进行匹配 print(result) # ['123', '456'] 另外需要注意的是,使用compile函数编译的正则表达式对象是可以重复使用的,因此在需要多次匹配同一个表达式时,可以先编译成对象,然后重复调用该对象的方法进行匹配操作,可以避免重复编译的影响。 ### 回答3: 在Python中,re模块可以用来处理正则表达式。compile()函数是re模块的一个方法,它可以将一个正则表达式串编译成一个pattern对象,这个对象可以再次被用来处理字符串。 使用re.compile()函数的一个主要原因是它可以提高代码的执行效率。如果需要多次使用同一正则表达式,如果每次都要编译一遍,就会浪费很多时间。如果编译一次之后,将pattern对象保存在一个变量中,就可以在需要时多次使用,提高了程序的运行速度。 compile()函数有两个参数:pattern和flags。其中,pattern表示要编译的正则表达式字符串,flags是一个可选的参数,用来指定正则表达式的匹配模式。flags可以是一组位标志,也可以是具体的某个标志。 注意,使用re.compile()创建的pattern对象只支持基本的正则表达式语法。如果需要使用进阶的语法,比如lookahead或lookbehind,就必须使用re模块中的其他函数。 下面是一个使用compile()函数的简单示例: import re pattern = re.compile(r'\d+') # 匹配所有数字 text = 'there are 123 apples' match = pattern.search(text) if match: print(match.group()) # 输出 123 上面的代码首先用compile()函数创建了一个正则表达式对象,表示匹配所有数字。然后它在文本中搜索这个对象,如果匹配成功,就通过group()方法输出匹配的文本。 总之,compile()函数是Python正则表达式的重要组成部分。它可以将需要多次使用正则表达式对象编译成pattern对象,从而提高程序的效率。使用compile()函数还可以更方便地管理正则表达式,使得代码更加易读易维护。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值