Python学习之旅（核心编程爬虫篇004正则表达式）

最新推荐文章于 2024-05-16 10:02:11 发布

破空星

最新推荐文章于 2024-05-16 10:02:11 发布

阅读量558

点赞数

分类专栏： Python学习之旅爬虫篇

本文链接：https://blog.csdn.net/qq_36195536/article/details/114873700

版权

本文介绍了Python中正则表达式的基本概念、应用场景和详细使用方法，包括普通字符、元字符、预定义匹配字符集、重复匹配、位置匹配、贪婪与非贪婪匹配，以及re模块的常用方法如分组功能。

摘要由CSDN通过智能技术生成

Python核心编程爬虫篇2021.03.16

指导教师：逻辑教育讲师Jerry

正则表达式是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个规则字符串。是用来对字符串的过滤逻辑公式。

正则表达式中的普通字符，在匹配的时候,只匹配与自身相同的一个字符
例如：达式c，在匹配字符串abcde时，匹配结果是：成功；匹配到的内容是c；匹配到的位置开始于2，结束于3。（注：下标从0开始还是从1开始，因当前编程语言的不同而可能不同）

正则表达式中使用了很多元字符，用来表示这些特殊的含义或功能

表达式	匹配
`.`	匹配除了换行符`\n`以外的任意字符
`\|`	逻辑或操作符
`[]`	匹配字符集中的一个字符
`[^]`	对字符集求反，`^`必须放在前面
`-`	定义`[]`里的一个区间，例如`a-z`
`\`	对一些具有特殊功能的字符进行转义
`()`	对表达式进行分组，将括号内的内容当做整体，并获得其所匹配的值

正则表达式中的一些表示方法，可以同时匹配某个预定义字符集中的任意一个
字符。比如，表达式\d可以匹配任意一个数字，但是只能是一个，不是多个。

为了对某个字段进行重复匹配，例如手机号码13666666666，可以使用表达式再加上修饰匹配次数的特殊符号{},例如[abcd][abcd]可以写成[abcd]{2}

表达式	匹配
`{n}`	表达式重复`n`次，比如`a{3}`相当于`aaa`
`{m,n}`	表达式至少重复`m`次，至多重复`n`次，比如`ab{1,3}`可匹配`ab`,`abb`,`abbb`
`{ m,}`	表达式至少重复`m`次
`?`	匹配表达式`0`次或者`1`次，相当于`{0,1}`比如 `a[cd]?`可以匹配`a`,`ac`,`ab`
`+`	表达式至少重复`1`次 ,相当于`{1，}`，比如`a+b`可以匹配`ab`,`aab`,`aaab`等
`*`	表达式重复`0`次到任意次，相当于`{0，}`，比如`\^*b`，可以匹配`b`,`^b`,`^^b`,`^^^b`等

有时候，我们对匹配出现的位置有要求，如开头、结尾、单词之间等等