最近想弄一下关于Python的东西,比如弄一个爬虫什么的。又正好看到了一个可以免费看Pixiv站会员图片的网站,但是正则玩的太菜了。。。于是最近决定开始好好的学习一下正则。。
下面是一些对正则简单的总结。
首先介绍一下关于正则的一些常见的元字符:
符号 | 描述 |
---|---|
. | 匹配换行符以外的任意字符 |
\w | 匹配字母数字或下划线或者汉字或者下划线 |
\s | 匹配任意空白符 |
\d | 匹配数字 |
\b | 匹配单词开始或者结束,只匹配一个位置 |
^ | 匹配字符串的开始 |
$ | 匹配字符串结束 |
有时候经常会想匹配到元字符本身,这个时候就需要去使用""来取消这些元字符的特殊意义
例如想匹配 . * $等字符,这个时候就需要使用转义字符了
\. \* \$
当然如果想匹配转义字符本身的话也是一样的
\\(这样就表示\)
对于字符类的也是有对应的方法,一般是用[]将其包起来
例如[0-9a-zA-Z]就是表示匹配任意一个处于0-9 a-z A-Z的字符了
例如[+\-*/]用于匹配加减乘除符号,这里面的*等不需要转义,可能是默认当成字符了吧,-转义是因为防止与a-z等出现歧义吧
下面是重复符(也叫作限定符)
符号 | 描述 |
---|---|
* | 重复0次或多次 |
+ | 重复一次或多次 |
? | 重复0次或1次 |
{n} | 重复n次 |
{n,} | 重复至少n次 |
{n,m} | 重复至少n次,但不多于m次 |
例如匹配1-999的数字
[1-9]\d{0,2} 首先要满足其最高位不为0,然后剩下的没有约束,因此用\d代替
正则也提供了分支条件,就是可以将不同的规则用"|"分开,一旦满足了某一规则后,就不会再管其他分支了。
正则分组
正则分组的话则用的是"()"
比如你要匹配后缀名为.jpg或者.png的图片,那么这样的话用分组就可以表示为
(.jpg|.png)#自己还是太菜了举不好像样的例子
暂时就总结到这里吧,事实上正则表达式可以构造很复杂的匹配公式的。。。
太菜了。。。以后学到了在总结到这里吧。