python使用正则表达式(Regular Expression)超详细

一、导入re库

python使用正则表达式要导入re库。

import re

在re库中。正则表达式通常被用来检索查找、替换那些符合某个模式(规则)的文本。

二、使用正则表达式步骤

1、寻找规律;

2、使用正则符号表示规律;

3、提取信息,如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的字符则匹配失败。

三、正则表达式中常见的基本符号

1.点号“.”

    一个点号可以代替除了换行符(\n)以外的任何一个字符,包括但不限于英文字母、数字、汉字、英文标点符号和中文标点符号。

2.星号“*”

    一个星号可以表示它前面的一个子表达式(普通字符、另一个或几个正则表达式符号)0次到无限次。

3.问号“?”

    问号表示它前面的子表达式0次或者1次。注意,这里的问号是英文问号。

4.反斜杠“\”

    反斜杠在正则表达式里面不能单独使用,甚至在整个Python里都不能单独使用。反斜杠需要和其他的字符配合使用来把特殊符号变成普通符号,把普通符号变成特殊符号。如:“\n”。

5.数字“\d”

    正则表达式里面使用“\d”来表示一位数字。再次强调一下,“\d”虽然是由反斜杠和字母d构成的,但是要把“\d”看成一个正则表达式符号整体。

6.小括号“()”

小括号可以把括号里面的内容提取出来。

四、常见的正则表达式举例

1.  .*?(匹配所有内容)

例如:'<title>(.*?)</title>'   将网页的标题爬取下来。

2、\w 单词字符[A-Za-z0-9_], "+" 匹配前一个字符1次或无限次 例如:一个人的邮箱是这样的lixiaomei@qq.com,那么我们如何从一大堆的字符串把它提取出来呢? 

pattern: \w+@\w+\.com

思考:若邮箱为hello123@heuet.edu.com,如何匹配?

pattern:\w+@(\w+\.)?\w+\.com

?代表了匹配0次或者1次括号分组内的匹配内容,"()"则表示被括内容是一个分组,分组序号从pattern字符串起始往后依次排列。因为是匹配0次或1次,那么就意味着括号内的部分是可有可无的,所以这个pattern就可能匹配以上两种邮箱格式。

扩展: \w+@(\w+\.)*\w+\.com 模式就更厉害了," * " 可以匹配0次或无限次。

五、re库的核心函数

1、compile()函数 (可有可无)

•     函数定义: compile(pattern, flag=0)

•     函数描述:编译正则表达式pattern,然后返回一个正则表达式对象。

为什么要对pattern进行编译呢?Python核心编程》里面是这样解释的:

使用预编译的代码对象比直接使用字符串要快,因为解释器在执行字符串形式的代码前都必须把字符串编译成代码对象。

2、match()函数

•     函数定义: match(pattern, string, flag=0)

•     函数描述:只从字符串的最开始与pattern进行匹配,匹配成功返回匹配对象(只有一个结果),否则返回None。

问题来了,为什么result1结果有这么多的东西啊?貌似最后一个才是要匹配的对象。这个要怎么提取出来呀?

    别着急,我们现在得到的是匹配对象,需要用一定的方法提取,后面会在《匹配对象的方法》章节来解决这个问题,继续往下看。

3、search()函数

  • 函数定义: search(pattern, string, flag=0)
  • 数描述:与match()工作的方式一样,但是search()不是从最开始匹配的,而是从任意位置查找第一次匹配的内容。如果所有的字串都没有匹配成功,返回None,否则返回匹配对象。

4、findall()函数

  • 函数定义: findall(pattern, string [,flags])
  • 函数描述:查找字符串中所有出现的正则表达式模式,并返回一个匹配列表

上面同时列出了match、search、findall三个函数用法。findall与match和search不同的地方是它会返回一个所有无重复匹配的列表。如果没找到匹配部分,就返回一个空列表。六、匹配对象的方法(提取)

以上re模块函数的返回内容可以分为两种:

  •     返回匹配对象:就是上面如 <_sre.SRE_Match object; span=(0, 5), match='12345'>这样的对象,可返回匹配对象的函数有match、search、finditer
  •     返回一个匹配的列表:返回列表的就是 findall

因此匹配对象的方法只适用match、search、finditer,而不适用与findall

常用的匹配对象方法有这两个:group、groups、还有几个关于位置的如 start、end、span就在代码里描述了。

1、group方法

  • 方法定义:group(num=0)
  • 方法描述:返回整个的匹配对象,或者特殊编号的字组

再看下面的实例:

这里就需要用到我们之前提到的分组概念。

分组的意义在于:我们不仅仅想得到匹配的整个字符串,我们还想得到整个字符串里面的特定子字符串。如上例中,整个字符串是12345+abcde”,但是想得到 “abcde”,我们就可以用()括起来。因此,你可以对pattern进行任何的分组,提取你想得到的内容。

2、groups方法

  • 方法定义groups(default =None)
  • 方法描述:返回一个含有所有匹配子组的元组,匹配失败则返回空元组

七、re模块的属性(flag)

re模块的常用属性有以下几个:

  • re.I: 匹配不分大小写;(常用)
  • re.L: 根据使用的本地语言环境通过\w, \W, \b, \B, \s, \S实现匹配;
  • re.M: ^和$分别匹配目标字符串中行的起始和结尾,而不是严格匹配整个字符串本身的起始和结尾;
  • re.S: “.”(点号)通常匹配除了\n(换行符)之外的所有单个字符,该标记表示“.”(点号)能够匹配全部字符;(常用)
  • re.X: 通过反斜线转义,否则所有空格加上#(以及在该行中所有后续文字)都被忽略,除非在一个字符类中或者允许注释并且提高可读性;

注意:

  • 如果我们定义了compile编译,需要先将flag填到compile函数中,否则填到匹配函数中会报错; 如果没有定义compile,则可以直接在匹配函数findall中填写flag。

附录:

正则表达式中语法一览表

 

 

  • 75
    点赞
  • 351
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
### 回答1: 可以使用正则表达式来提取字符串中的电话号码。例如,可以使用以下代码: ```python import re text = "我的电话号码是:123-456-789,你可以打电话给我。" phone_pattern = re.compile(r'\d{3}-\d{3}-\d{4}') phone_numbers = phone_pattern.findall(text) print(phone_numbers) ``` 输出结果为: ``` ['123-456-789'] ``` 其中,`re.compile()`函数用于编译正则表达式,`r'\d{3}-\d{3}-\d{4}'`表示匹配三个数字、一个短横线、三个数字、一个短横线、四个数字的模式。`findall()`函数用于在文本中查找所有匹配的模式,并返回一个列表。 ### 回答2: 在Python使用正则表达式提取字符串中的电话号码可以使用re(Regular Expression正则表达式)库。以下是几个步骤: 1.导入re库 ``` import re ``` 2.定义正则表达式 电话号码的格式可能不同,有可能是带区号的,有可能是带分机号的,也有可能是没有区号和分机号的。所以需要定义多个正则表达式来匹配不同格式的电话号码。 例如: 1)只有数字的电话号码(11位) ``` pattern1 = r'\d{11}' ``` 2)带区号的电话号码(可能有空格或“-”分隔符) ``` pattern2 = r'\d{3}\s*-\s*\d{8}|\d{4}\s*-\s*\d{7}' ``` 3)带分机号的电话号码 ``` pattern3 = r'\d{8,11}\s*-\s*\d{1,5}' ``` 3.使用re.match()函数匹配字符串 ``` text = '我的电话号码是:13811112222,工作电话是:010-88888888,手机是:13666666666,分机号是:8888。' match1 = re.match(pattern1, text) match2 = re.match(pattern2, text) match3 = re.match(pattern3, text) ``` 4.输出匹配结果 ``` if match1: print('匹配结果1:', match1.group()) if match2: print('匹配结果2:', match2.group()) if match3: print('匹配结果3:', match3.group()) ``` 完整代码如下: ``` import re pattern1 = r'\d{11}' pattern2 = r'\d{3}\s*-\s*\d{8}|\d{4}\s*-\s*\d{7}' pattern3 = r'\d{8,11}\s*-\s*\d{1,5}' text = '我的电话号码是:13811112222,工作电话是:010-88888888,手机是:13666666666,分机号是:8888。' match1 = re.match(pattern1, text) match2 = re.match(pattern2, text) match3 = re.match(pattern3, text) if match1: print('匹配结果1:', match1.group()) if match2: print('匹配结果2:', match2.group()) if match3: print('匹配结果3:', match3.group()) ``` 输出结果如下: ``` 匹配结果1:13811112222 匹配结果2:010-88888888 匹配结果3:13666666666 - 8888 ``` ### 回答3: 在Python使用正则表达式提取字符串中的电话号码,需要先导入re模块,然后使用re.match、re.search、re.findall等函数来匹配字符串,并获取匹配到的部分。 首先定义一个字符串,假设为“我的电话号码是13888888888,你的电话号码是13999999999”,接下来使用正则表达式匹配该字符串中的电话号码: ```python import re # 定义字符串 string = "我的电话号码是13888888888,你的电话号码是13999999999" # 正则表达式匹配电话号码 phone_numbers = re.findall(r'\d{11}', string) # 输出匹配到的电话号码 print("电话号码:", phone_numbers) ``` 如果字符串中有多个电话号码,使用re.findall函数会将所有匹配到的电话号码存储在一个列表中。 正则表达式r'\d{11}'表示匹配11个数字,如果需要匹配其他长度的电话号码,可以根据实际情况修改正则表达式中的数量词。 除此之外,还可以使用其他正则表达式的语法,如\d+、\d{3,4}-\d{7,8}等来匹配不同格式的电话号码。需要根据实际情况来选择匹配规则。 总的来说,Python使用正则表达式提取字符串中的电话号码,实现起来比较简单。需要熟悉正则表达式的语法及其基本用法,并结合实际情况来选择合适的匹配规则。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值