# -*- coding:utf-8 -*- import re # 1. match() # 2. search() string = 'hell8oworldhe8llo,h4e,hell,h6ool' pattern = re.compile('h.*?l') # ----------------------------------------------------------------- # findall() 最终返回的一个列表,列表中是符合正则条件的所有结果 res = re.findall(pattern, string) print(res) # ----------------------------------------------------------------- # split() 根据正则将字符串进行分割,返回的是存放分割后字符串的列表 pattern = re.compile('\d+') res = re.split(pattern, string) print(res) # ----------------------------------------------------------------- # sub() 函数 用于替换目标字符中符合正则的字符,默认替换所有 pattern = re.compile('\d+') # sub(正则, 替换后的字符串, 大字符串, 替换次数) 共4个参数 res = re.sub(pattern, '+', string, 2) print(res) string3 = '<p><h1>社会主义核心价值观<img src="http://www.baidu.com"></h1></p>' pattern = re.compile('<.*?>') res = re.sub(pattern, ' ', string3) print(res) # ----------------------------------------------------------------- string4 = '''<ul><li><a href='/html/tv/hytv/110680.html' title="2017年大陆国产剧《凤囚凰》连载至28">2017年大陆国产剧《凤囚凰》连载至28</a><span><font color=#FF0000>03-05</font></span></li><li><a href='/html/tv/hytv/110723.html' title="2017年香港港台剧《无间道2018(粤语)》连载至16">2017年香港港台剧《无间道2018(粤语)》连载至16</a><span><font color=#FF0000>03-05</font></span></li><li><a href='/html/tv/hytv/110821.html' title="2017年香港港台剧《波士早晨(国语)》连载至15">2017年香港港台剧《波士早晨(国语)》连载至15</a><span><font color=#FF0000>03-05</font></span></li><li><a href='/html/tv/hytv/110825.html' title="2017年香港港台剧《波士早晨(粤语)》连载至43">2017年香港港台剧《波士早晨(粤语)》连载至43</a><span><font color=#FF0000>03-05</font></span></li><li><a href='/html/tv/hytv/110857.html' title="2017年大陆国产剧《我的父亲我的兵》连载至22">2017年大陆国产剧《我的父亲我的兵》连载至22</a><span><font color=#FF0000>03-05</font></span></li><li><a href='/html/tv/hytv/110863.html' title="2017年香港港台剧《三个女人一个因(粤语)》连载至5">2017年香港港台剧《三个女人一个因(粤语)》连载至5</a><span><font color=#FF0000>03-05</font></span></li><li><a href='/html/tv/hytv/110891.html' title="2017年大陆国产剧《人生若如初相见》连载至8">2017年大陆国产剧《人生若如初相见》连载至8</a><span><font color=#FF0000>03-04</font></span></li><li><a href='/html/tv/hytv/110896.html' title="2017年大陆国产剧《利刃出击》连载至7">2017年大陆国产剧《利刃出击》连载至7</a><span><font color=#FF0000>03-04</font></span></li><li><a href='/html/tv/hytv/110897.html' title="2017年大陆国产剧《美好生活》连载至8">2017年大陆国产剧《美好生活》连载至8</a><span><font color=#FF0000>03-04</font></span></li><li><a href='/html/tv/hytv/110895.html' title="2017年大陆国产剧《烈火如歌》连载至6">2017年大陆国产剧《烈火如歌》连载至6</a><span><font color=#FF0000>03-04</font></span></li><li><a href='/html/tv/hytv/110790.html' title="2017年大陆国产剧《谈判官》连载至43">2017年大陆国产剧《谈判官》连载至43</a><span><font color=#FF0000>03-04</font></span></li><li><a href='/html/tv/hytv/109048.html' title="2017年香港港台剧《爱回家之开心速递》连载至268">2017年香港港台剧《爱回家之开心速递》连载至268</a><span><font color=#FF0000>03-04</font></span></li><li><a href='/html/tv/hytv/110820.html' title="2017年大陆国产剧《柜中美人》连载至29">2017年大陆国产剧《柜中美人》连载至29</a><span><font color=#FF0000>03-04</font></span></li><li><a href='/html/tv/hytv/110763.html' title="2017年大陆国产剧《东山晴后雪》连载至28">2017年大陆国产剧《东山晴后雪》连载至28</a><span><font color=#FF0000>03-02</font></span></li><li><a href='/html/tv/hytv/110696.html' title="2017年大陆国产剧《警犬来啦》连载至47">2017年大陆国产剧《警犬来啦》连载至47</a><span><font color=#FF0000>03-01</font></span></li></ul>''' pattern = re.compile('''<a href='(.*?)' title="(.*?)"''') # 返回的数据是一个类表嵌套元祖,元祖中放的就是分组数据 res = re.findall(pattern, string4) for r in res: # 正则中包含()分组,group获取到的匹配的字符串 print('链接:{} 名称:{}'.format(r[0], r[1])) # 返回的是一个对象,和findall结果稍有不同 res = re.search(pattern, string4) if res: # 正则中包含()分组,group获取到的匹配的字符串 print(res.group()) # 通过分组的索引,获取对应小分组的信息,分组的索引从1开始 print(res.group(1)) print(res.group(2)) else: print('没有匹配到数据')
基于python的-正则中的函数
最新推荐文章于 2023-05-02 18:11:08 发布