【每天几分钟,从零入门python编程的世界!】
从现在开始,我们学习正则表达式。
正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。
简单说,正则表达式就是查找、替换字符串的模式,这种模式也是一个字符串序列。打个比方,现实中我们要找一个东西,比如说找一个人,那你要跟别人进行描述和表达,这个人大概多高、多少岁、穿什么颜色和款式的衣服、胖还是瘦等等,这样才方便别人帮你找人。那么正则表达式就相当于像电脑或者程序描述和表达,你要找的字符串或者文本是什么样子的。
大家在使用word时,也会用到“查找”和“替换”这两种功能,但是这两种功能是找到完全匹配的字句,而在编程中不但可以找到完全匹配和重合的字符,而且可以找到符合某一种规则的模式的字符。
比如说,在国际上,中国的手机号都是86开头,比如86-13966668888之类的电话号码,假如你现在收集到了一大堆的手机号码,各国的都有,你想把这些手机号码中中国人的手机号码找出来,那你就需要用正则表达式,找到开头是“86-”并且是11位的号码。
再比如说,现在很多APP都要注册才能使用,那么用户注册的时候一般都是填写手机号码和密码或者验证码,那么你就需要在程序中加入正则表达式去判断,用户输入的手机号是不是真正的手机号,因为中国的手机号都是11位,而且第一位一般都是1,前三位也都是在固定的号段,如果有的用户填写了错误的手机号,比如说不是11位数字,或者是填写的手机号中有字母,比如d23hj1199这种乱填的,或者填了00012020这种不符合手机号规则的数字,通过正则表达式就能找到并筛选出来。只要用户填写的号码不符合我们规定的正则表达式的匹配模式,就注册不成功。
接下来我们举一个最简单的小例子,来了解正则表达式最基本、最简单的应用。
假设我们现在有一个自动应答机器人,它每天都会接到用户发给我们的留言或者message,它接到的留言当中就会有一些姓名、联系方式、电子邮箱之类的信息,那么我们怎么样通过正则表达式把留言当中的电话号码提取出来。
代码如下:
运行结果:
代码简单说明:
re是Python中自带的正则表达式模块,也就是处理正则表达式相关问题的库
complie()函数用于生成一个正则表达式对象,这个对象供match()和search()这两个函数使用。也就是说先用compile()生成一个正则表达式对象,然后用这个正则表达式对象,可以调用match()和search()这两个函数。
这里compile()函数的参数r'dd-ddddddddddd'是正则表达式的模式,也就是说我们要找(匹配)的字符串是什么样子的。d表示一个数字,dd-ddddddddddd就表示前面是2个数字,然后跟一个横杠-,横杠后面跟11个数字。当然这是最最简单的写法。关于更复杂的东西后面会深入学习。
所以re.compile(r'dd-ddddddddddd')表示生成了一个''前面2个数字加一个-后面再跟11个数字''这种''样子"(模式)的一个正则表达式对象。
findall()函数是从一个字符串里面找符合某一个模式的所有字符串,返回值是列表。
findall(message)表示从message这个变量中保存的字符串中去找字符串,find_phone_number.findall(message)就表示从message这个字符串中去找符合find_phone_number中保存的这种规则(模式)的字符串。
以上是一个最简单最基本的正则表达式的应用的举例,先通过最简单的东西理解概念,后面再进行更深入的学习。
我是时问新,欢迎关注我。跟我一起从零开始学习Python,每天花一点时间,开启python编程新世界的大门,领略新的风光,让人生多一种可能!