python正则表达式入门(Crossin的编程教室例子)

最新推荐文章于 2022-08-16 21:29:21 发布

照片怎么加不上

最新推荐文章于 2022-08-16 21:29:21 发布

阅读量381

点赞数

分类专栏： python基础

本文链接：https://blog.csdn.net/qq_38788128/article/details/80349538

版权

python基础专栏收录该内容

18 篇文章 0 订阅

订阅专栏

# -- coding: utf-8 --
import re
text = "Hi , I am Shirley Hilton. I am his wife."

#[] 或的意思
m = re.findall(r"[Hh]i", text)#['Hi', 'hi', 'Hi', 'hi']
if m:
    print m
else:
    print 'not match'

#\b 是获取字符的开头或者结尾
m=re.findall(r"\bhi",text)#['hi']
print m

#r 起到转义的作用
m=re.findall("\bhi",text)#[]
print m


# .的作用是占位符 任意字符
m=re.findall(r"i.",text)#['i,', 'ir', 'il', 'is', 'if']
print m

#\S 不是空白符的任意字符

m=re.findall(r"i\S",text)#['ir', 'il', 'is', 'if']
print m

#会用“?”表示任意一个字符，“*”表示任意数量连续字符，这种被称为通配符。但在正则表达式中，
# 任意字符是用“.”表示，而“*”则不是表示字符，
# 而是表示数量：它表示前面的字符可以重复任意多次（包括0次），只要满足这样的条件，都会被表达式匹配上

#获取以I开头e结尾的字符
#贪婪匹配
m=re.findall(r"I.*e",text)#['I am Shirley Hilton. I am his wife']
print m

#懒惰匹配
m=re.findall(r"I.*?e",text)#['I am Shirle', 'I am his wife']
print m

'''
这是因为“*”在匹配时，会匹配尽可能长的结果。如果你想让他匹配到最短的就停止，
需要用“.*?”。如“I.*?e”，就会得到第二种结果。这种匹配方式被称为懒惰匹配，
而原本尽可能长的方式被称为贪婪匹配
'''



'''
最后留一道习题：
从下面一段文本中，匹配出所有s开头，e结尾的单词。

site sea sue sweet see case sse ssee loses
'''

question='site sea sue sweet see case sse ssee loses'

#启用\S的飞空字符
m=re.findall(r"\bs\S*?e\b",question)#['site', 'sue', 'see', 'sse', 'ssee']
print m
m=re.findall(r"\bs.*?e\b",question)#['site', 'sea sue', 'sweet see', 'sse', 'ssee']
print m


#abcgabc
#查询a开头c结尾的字符
t="abcgabc"
m=re.findall(r"a.*?c",t)
print m



#匹配电话
#[0-9]+
#\d
# +   加+后会匹配整体

t="3131 asdsa"
m=re.findall(r"[0-9]+",t)
print m
m=re.findall(r"\d",t)
print m

#匹配1开头的11位数据
#{}
t="1122311122211223231343242413213211132324243232"
t=re.findall(r"1\d{10}",t)
print t



'''
1.
我们已经了解了正则表达式中的一些特殊符号，如\b、\d、.、\S等等。这些具有特殊意义的专用字符被称作“元字符”。常用的元字符还有：

\w - 匹配字母或数字或下划线或汉字（我试验下了，发现3.x版本可以匹配汉字，但2.x版本不可以）
\s - 匹配任意的空白符
^ - 匹配字符串的开始
$ - 匹配字符串的结束

2.
\S其实就是\s的反义，任意不是空白符的字符。同理，还有：

\W - 匹配任意不是字母，数字，下划线，汉字的字符
\D - 匹配任意非数字的字符
\B - 匹配不是单词开头或结束的位置

[a]的反义是[^a]，表示除a以外的任意字符。[^abcd]就是除abcd以外的任意字符。

3.
之前我们用过*、+、{}来表示字符的重复。其他重复的方式还有：

? - 重复零次或一次
{n,} - 重复n次或更多次
{n,m} - 重复n到m次

正则表达式不只是用来从一大段文字中抓取信息，很多时候也被用来判断输入的文本是否符合规范，或进行分类。来点例子看看：
^\w{4,12}$
这个表示一段4到12位的字符，包括字母或数字或下划线或汉字，可以用来作为用户注册时检测用户名的规则。（但汉字在python2.x里面可能会有问题）

\d{15,18}
表示15到18位的数字，可以用来检测身份证号码

^1\d*x?
以1开头的一串数字，数字结尾有字母x，也可以没有。有的话就带上x。

另外再说一下之前提到的转义字符\。如果我们确实要匹配.或者*字符本身，而不是要它们所代表的元字符，那就需要用\.或\*。\本身也需要用\\。
比如"\d+\.\d+"可以匹配出123.456这样的结果。

'''




'''
    来说上次的习题：
(021)88776543
010-55667890
02584453362
0571 66345673

一个可以匹配出所有结果的表达式是
\(?0\d{2,3}[) -]?\d{7,8}

解释一下：
\(?
()在正则表达式里也有着特殊的含义，所以要匹配字符"("，需要用"\("。?表示这个括号是可有可无的。

0\d{2,3}
区号，0xx或者0xxx

[) -]?
在区号之后跟着的可能是")"、" "、"-"，也可能什么也没有。

\d{7,8}
7或8位的电话号码

可是，这个表达式虽然能匹配出所有正确的数据（一般情况下，这样已经足够），但理论上也会匹配到错误的数据。因为()应当是成对出现的，表达式中对于左右两个括号并没有做关联处理，例如(02188776543这样的数据也是符合条件的。

我们可以用正则表达式中的“|”符号解决这种问题。“|”相当于python中“or”的作用，它连接的两个表达式，只要满足其中之一，就会被算作匹配成功。

于是我们可以把()的情况单独分离出来：
\(0\d{2,3}\)\d{7,8}

其他情况：
0\d{2,3}[ -]?\d{7,8}

合并：
\(0\d{2,3}\)\d{7,8}|0\d{2,3}[ -]?\d{7,8}


使用“|”时，要特别提醒注意的是不同条件之间的顺序。匹配时，会按照从左往右的顺序，一旦匹配成功就停止验证后面的规则。假设要匹配的电话号码还有可能是任意长度的数字（如一些特殊的服务号码），你应该把
|\d+
这个条件加在表达式的最后。如果放在最前面，某些数据就可能会被优先匹配为这一条件。你可以写个测试用例体会一下两种结果的不同。
 '''

照片怎么加不上

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python正则表达式入门(Crossin的编程教室例子)

# -- coding: utf-8 --import retext = "Hi , I am Shirley Hilton. I am his wife."#[] 或的意思m = re.findall(r"[Hh]i", text)#['Hi', 'hi', 'Hi', 'hi']if m: print melse: print 'not match'#\b 是...
复制链接

扫一扫