python 逆向生成正则表达式语法_【python】正则表达式

最新推荐文章于 2024-03-18 09:39:25 发布

weixin_39577289

最新推荐文章于 2024-03-18 09:39:25 发布

阅读量321

点赞数

文章标签： python 逆向生成正则表达式语法

1、正则表达式基础

2、python 正则表达式

1、正则表达式基础

元字符：

其他语法：

(1)字符转义

如果你想查找元字符本身的话，比如你查找.,或者*,就出现了问题：你没办法指定它们，因为它们会被解释成别的意思。这时你就得使用\来取消这些字符的特殊意义。因此，你应该使用\.和\*。当然，要查找\本身，你也得用\\.

例如C:\\Windows 匹配C:\Windows

(2)分组——用小括号来指定子表达式(也叫做分组)

例如：(\d{1,3}\.){3}\d{1,3}是一个简单的IP地址匹配表达式，\d{1,3}匹配1到3位的数字，(\d{1,3}\.){3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次，最后再加上一个一到三位的数字(\d{1,3})。不幸的是，它也将匹配256.300.888.999这种不可能存在的IP地址。选择，字符类来描述一个正确的IP地址为：((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。

(3)贪婪与懒惰

当正则表达式中包含能接受重复的限定符时，通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符。以这个表达式为例：a.*b，它将会匹配最长的以a开始，以b结束的字符串。如果用它来搜索aabab的话，它会匹配整个字符串aabab。这被称为贪婪匹配。

有时，我们更需要懒惰匹配，也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式，只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复，但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧：a.*?b匹配最短的，以a开始，以b结束的字符串。如果把它应用于aabab的话，它会匹配aab(第一到第三个字符)和ab(第四到第五个字符)。

2、python正则表达式

实例:1：(search和match与sub)

#encoding:utf-8

'''Created on 2014-6-18

@author: Administrator'''

importreclassRegex(object):defregex_match(self):

pattern= "\w+@\w+.*(\w+)\.com" #匹配邮箱

mt = re.match(pattern, "luosongchao@xxx.yyy.xadad.com")ifmt:printmt.group()printmt.groups()else:print "no match"

defregex_search(self):

mt= re.search(r"\Bl(.?){2}", "hello world!")ifmt:printmt.group()else:print "no match"

defregex_sub(self):

ret= re.sub("X", "Mr Smith", "attention:X\n\nDear X,\n")printret

ret= re.subn("X", "Mr Smith", "attention:X\n\nDear X,\n")printretif __name__ == "__main__":

regex=Regex()

regex.regex_match()

regex.regex_search()

regex.regex_sub()

结果：

结论：

match：从字符串开头开始对模式进行匹配，成功返回匹配对象，否则返回None

search：在字符串string中搜索正则表达式模式pattern第一次出现的字符串

sub：把字符串中匹配正则表达式pattern的地方替换为新字符串

实例2：(split)

#encoding:utf-8

'''Created on 2014-6-18

@author: Administrator'''

importreclassRegexLs(object):"""使用正则表达式解析Unix命令ls -al的结果"""

def __init__(self, path):try:

self.fl=open(path)exceptException :print "文件" + path + "打开出错！"

defanaly_file(self):

pattern= "\s+|\t"

for line inself.fl:printre.split(pattern, line.strip())def __del__(self):

self.fl.close()if __name__ == "__main__":

path= "ls.txt"regex_ls=RegexLs(path)

regex_ls.analy_file()

其中Unix命令：ls –al 生成结果格式：

结论：

split，根据正则表达式pattern中的分隔符把字符串string分隔为一个列表

实例3：(惰性匹配)

#encoding:utf-8

'''Created on 2014-6-18

@author: Administrator'''

from random importrandint, choicefrom sys importmaxintfrom time importctimefrom string importlowercaseimportreclassRegexExample(object):def __init__(self):

self.doms= ('com', 'edu', 'net', 'org', 'gov')

self.format_list=[]defget_string(self):for i in range(randint(5, 10)):

dtint= randint(0, maxint - 1)

dtstr=ctime(dtint)

shorter= randint(4, 7)

em= ""

for j inrange(shorter):

em+=choice(lowercase)

longer= randint(shorter, 12)

dn= ""

for j inrange(longer):

dn+=choice(lowercase)

string= "%s::%s@%s.%s::%d-%d-%d" %(dtstr, em, dn, choice(self.doms), dtint, shorter, longer)#print string

self.format_list.append(string)defget_last(self):

pattern= ".+?(\d+-\d+-\d+)"

for elem inself.format_list:printelem

ps=re.search(pattern, elem)ifps:print ps.group(1)if __name__ == "__main__":

example=RegexExample()

example.get_string()print "#"*40example.get_last()

执行结果：

结论：

get_last()函数使用的pattern=”.*?(\d-\d-\d)”执行的是惰性匹配，其中(\d-\d-\d)为分组

weixin_39577289

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python 逆向生成正则表达式语法_【python】正则表达式

1、正则表达式基础2、python 正则表达式1、正则表达式基础元字符：其他语法：(1)字符转义如果你想查找元字符本身的话，比如你查找.,或者*,就出现了问题：你没办法指定它们，因为它们会被解释成别的意思。这时你就得使用\来取消这些字符的特殊意义。因此，你应该使用\.和\*。当然，要查找\本身，你也得用\\.例如C:\\Windows 匹配C:\Windows(2)分组——用小括号来指定子表达式(...
复制链接

扫一扫