python 正则表达式

最新推荐文章于 2024-07-22 21:38:50 发布

七海霸主

最新推荐文章于 2024-07-22 21:38:50 发布

阅读量133

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/qq_42795565/article/details/81485213

版权

python 专栏收录该内容

38 篇文章 1 订阅

订阅专栏

python
正则表达式

应用场景

- 特定规律字符串的查找切割替换等
- 邮箱格式、URL、IP等的校验
- 爬虫项目中，特定内容的提取

使用原则

- 只要使用字符串等函数解决的问题，就不要使用正则
- 正则的效率比较低，同时会降低代码的可读性。
- 世界上最难理解的三样东西：医生的处方、道士的神符、码农的正则。
- 提醒：正则是用来写的，不是用来读的；在不指定功能的情况下，不要试图阅读别人的正则。

基本使用

- 说明：正则不是我们写的，python中正则的解析通过re模块完成
- 相关函数：
  - match：从开头进行匹配，匹配到就返回正则结果对象，没有返回None。
  - search：从任意位置匹配，功能同上。
      # 从开头查找，找到返回正则匹配结果对象，没有找到返回None
      # m = re.match('abc', 'abcdask;jabcsdajl')
      # 从任意位置查找，功能同上
      m = re.search('abc', 'shdalsjdabchaoeor')

      if m:
          # 返回匹配的内容
          print(m.group())
          # 返回匹配内容位置
          print(m.span())
  - findall：全部匹配，返回匹配到的内容组成的列表，没有返回空列表。
      # 匹配所有内容，找到返回所有匹配的内容列表，没有找到返回空列表
      f = re.findall('abcd', 'adsjkjdabcajsdlasabcjsdlaabc')
      print(f)
  - compile：生成正则表达式对象
      # 先生成正则表达式对象
      c = re.compile('hello')
      # print(type(c))

      # 从开头匹配
      m = c.match('hellosadk;ask;kahellosadhlkas')
      print(m)

      # 从任意位置匹配
      s = c.search('hadlsjasdhellokjsdlks')
      print(s)

      # 匹配所有内容
      f = c.findall('hellosdhasdjahelloshdajldhello')
      print(f)
  说明：此方式更加灵活，将正则匹配分为两步完成(先生成正则对象，然后需要时进行匹配)

正则规则

- 单个字符
      普通字符：简单来说就是一对一的完全匹配。
      []：中间的任意一个字符
        [a-z]：a~z之间的任意字符(所有的小写字母)
        [a-zA-Z]：匹配所有的字母，多个连续的片段中间不能有任何多余的字符
        [^0-9]：匹配除0-9以外的任意字符
      . ：匹配除'\n'以外的任意字符
      \d：数字字符，等价于[0-9]
      \D：非数字字符，等价于[^0-9]
      \w：匹配字(数字、字母、下划线、汉字)
      \W：匹配非字(\w相反的内容)
      \s：所有的空白字符(\n、\t、\r、空格)
      \S：非空白字符(\s相反的内容)
      \b：词边界(开头、结尾、空格、标点等)
      \B：非词边界(\b相反的内容)
- 次数限定
      *：前面的字符出现任意次
      +：至少一次
      ?：最多一次
      {m,n}：m <= 次数 <= n
      {m,}：至少m次
      {,n}：至多n次
      {m}：指定m次
- 边界限定
  - ^：以指定的内容开头
  - $：以指定的内容结束
  - 示例：
      import re

      # ^：以指定内容开头
      # f = re.findall('^hello', 'hellosjdhelloalskdhello')

      # $：以指定内容结尾
      f = re.findall('hello$', 'hellosjdhelloalskdhello')

      print(f)
- 优先级控制
  - |：表示或，它拥有最低的优先级
  - ()：表示一个整体，可以明确的指定结合性/优先级
  - 示例：
      import re

      f = re.findall('a(hello|world)c', 'sahdjsahellocaworldcjsdhs')

      print(f)
- 分组匹配
  - 示例1:
      import re

      c = re.compile(r'(\d+)([a-z]+)(\d+)')

      s = c.search('sdsdj235sadhasjd36432sjdha')

      # 完整匹配结果
      print(s.group(), s.span())
      # 等价于上式
      print(s.group(0), s.span(0))
      # 第几个()匹配的结果
      print(s.group(1), s.span(1))
      print(s.group(2), s.span(2))
      print(s.group(3), s.span(3))
  - 示例2:
      import re

      # 固定匹配
      # c = re.compile(r'<a>\w+</a>')

      # \1表示前面第一个()匹配的内容
      # c = re.compile(r'<([a-z]+)><([a-z]+)>\w+</\2></\1>')

      # 给分组()起名字
      c = re.compile(r'<(?P<goudan>[a-z]+)><(?P<dahua>[a-z]+)>\w+</(?P=dahua)></(?P=goudan)>')

      s = c.search('<div><a>百度一下</a></div>')

      if s:
        print(s.group())

- 贪婪匹配
  - 贪婪：最大限度的匹配。正则的匹配默认就是贪婪的。
  - 非贪婪：只要满足条件，能少匹配就少匹配。'?'经常用于取消贪婪
  - 示例：
        import re

        # ?：取消任意多次的贪婪匹配
        # c = re.compile(r'a.*?b')

        # ?：取消至少一次的贪婪匹配
        c = re.compile(r'a.+?b')

        s = c.search('ssjdsdabjdsd')

        if s:
            print(s.group()) 

- 匹配模式
  - 说明：所谓匹配模式就是对匹配的原则进行整体的修饰。
  - 示例：
      import re

      # 忽略大小写re.I
      s = re.search(r'hello', 'HELLO world', re.I)

      # 正则默认是单行匹配，使用 re.M 可以进行多行匹配
      s = re.search(r'^hello', 'sdhasdh\nhello world', re.M)

      # 使.匹配任意字符，作为单行处理，忽略\n
      # string = '<div>hello</div>'
      string = '''<div>
      hello
      </div>'''
      s = re.search(r'<div>.*?</div>', string, re.S)

      if s:
          print(s.group())

练习

- 邮箱格式的匹配
- 手机号码的匹配