正则表达式

正则表达式

正则表达式( Regular Expession) 是-段字符串,它可以表示段有规律的信息。Python 自带一个式模块,通过这个模块可以查找、提取、替换-段有规律的信息。

在一万个人里面找 一个人很困难,但是在一万个人里面找一个非常“有特点”的人却很容易。假设有一皮肤是绿色的,身高三米,那么即使这个人混在万人中,其他人也能一眼找到他。 这个“寻找”的过程则表达式中叫作“匹配”。

在程序开发中,要让计算机程序从一大段文本中找到需要的内容,就可以使用正则表达式来实现。使用正则表达式有如下步骤。

(1)寻找规律,

(2)使用正则符号表示规律。

(3)提取信息。

举一个例子,有下面一段话:

今天天气真的不错,我正在读一本关于爬虫的书。 password:8888866666:password,我刚不小心把我的密码写了出来你能看见我的密码吗? 
我发现我们都喜欢使用同样的密码,昨天我不个心看到了小红的密码password:1111122222:password,难道她的其他密码也是这个? 
那么,如果能把符合在她的电脑中,我发现了她的银行卡密码果然是password:3333344444:password:数字:于是我提醒她注意密码安全,

在这 段文字中一共出现了3个密码。这三个密码都很有规律,他们都是password:数字:password,这种格式的内容里面的“数字”提取出来,就可以直接得到密码了。

正则表达式的基本符号

1.点号“.”

意义

一个点号可以代替除了换行符以外的任何一个字符。包括但不限于英文字母汉字、英文标点符号和中文标点符号。例如,有如下几个不同的字符串:

kingname 
kinabcme 
kin123me 
kin我是谁me 
kin嗨你好me 
kin"m"me

这些字符串的前3个字符都是“kin”, 后两个字符都是"me",只有中间的3个字符不同。如果使用点号动示,那么全部都可以变成kin..me的形式,中间有多少个字就用多少个点。

2.星号“*”

一个星号可以表示它前面的一个子表达式(普通字符、另个或几个正则表达式符号) 0次到无限次例如,有如下几个不同的字符串:

如果快乐你就笑哈 
如果快乐你就笑哈哈 
如果快乐你就笑哈哈哈哈 
如果快乐你就笑啥哈哈哈哈哈哈哈哈

这些字符串里面, “哈”字重复出现,所以如果用星号来表示,那么就可以全部变成:

如果快乐你就笑*

由于星号可以表示他前面的字符0次,所以即使写成“如果快乐你就笑”,没有“哈”字,也是满足这个正则表达式的。如:.*哈它表示在“如”和“哈”中间出现“任意多个除了换行符以外的任意字待”。这句话看起来有点绕,用下个字符串来说明,它们全部都可以用上面的这个正则表达式来表示:

如果快乐哈 
如果快乐你就笑哈 
如果你知道1+1=2那么请计算地球的半径哈 
如aklsdjfjaf哈

3.问号“?”

问号表示它前面的子表达式0次或者1次。注意,这里的问号是英文同号。例如下面这两个不同的字符串:

笑起来。 
笑起来哈。

在汉字 “来”和中文句号之间有0个或者1个“哈”字,都可以使用下面这个正则表达式来表示:

笑起来哈?。

问号最大的用处是与点号和星号配合起来使用,构成“.*?”。 通过正则表达式来提取信息的时候,用到的也是这个组合。

下面的所有字符串:

如哈 
如果快乐哈 
如果快乐你就笑哈 
如果你知道1+1=2那么请计算地球的半径哈 
如aklsdjfjaf哈

都可以用下面这个正则表达式来表示:如*哈

那么“.*”和“.*?”有什么区别呢?在学习了Pyhtom的正则表达式以后,将通过实际的例子来进行解芥。

4.反斜杠“\”

反科打在正则表达式里而不能单独使用其至在整个Pahon里都不能单德使用。反创打流联和其他的学行合使用来把特殊符号变成普通符号,把普通符号变成特殊符号。

在正则表达式里面,很多符号都是有特殊意义的,例如间号.星号大桥号、中括号和小情号。那么如果匹配的内容里而本身就有这些待号怎么办呢?如何告诉正则表达式现在只想把同号当作普通的问号来使用装,有如下一段字符串:

我的密码是*12345*不但括最外屋星号。

如何通过正则表达式来表示呢?如果写成:

我的密码是*.**不包括最外层展号。

此时就会出问题, 因为星号本身在正则表达式里面是有特殊意义的,不能用星号来匹配星号。这个时反斜杠就要登场了。反斜杠放在星号的前面,写成“\*”可以把是号变成普通的字持, 不再具有正则表达式的意义。因此正则表达式可以写成:

我的密码是\*,*\**不包括最外星号。

反斜杠不仅可以把特殊字符转换为普通字符,还可以把普通字符转换为特殊字符。例如:“n”只是一个普通字符,但是“\n”代表换行符,在python开发中,经常遇到转义字符。

转义字符

意义

\n

换行符

\t

制表符

\\

普通反斜杠

\'

单引号

\"

双引号

\d

数字

5.数字“\d”

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值