描述:
输入
有多组数据,每组一行
输出
对每组数据, 抽取出其中的tag及其包含的电话号码中的区号输出。每个tag输出为一行。tag外的电话号码不用理会。
如果找不到tag及其包含的电话号码, 则输出NONE
数据保证不会出现两个tag重叠的情况。
样例输入
2
<bb>(01)-123<a>bbb(02)-2784KK</a><xy>stk(1)-123(03)-345b</xy>(04)-123</xy><z>(05)-123</zz>zz<yy>(06)-123</yy>
<bb>(01)-123<a><k>1223</k><a>(01)-12</a>
样例输出
<xy>1,03</xy>
<yy>06</yy>
NONE
提示
1) tag中间可以有任何文字,比如 xddd也是一个合法tag
2) 在分组的右边可以通过分组的编号引用该分组所匹配的子串
m = r’(((ab*)c)d)e\3’ #要求 ab*cde后面跟着第三分组的内容
r = re.match(m,“abbbcdeabbbkfg”) # 后面的bbb少一个b则不能匹配,因为第三分组是abbb
print(r.group(3)) # abbb
print(r.group()) # abbbcdeabbb
3) 如果一个正则表达式搞不定,可以先用一个正则表达式抽取某个中间结果,再在中间结果里面手工或者用另外的正则表达式进一步分析
来源
Guo Wei
import re
m=r'(<([a-z]+)>.+?</)\2>'
n=r'\((\d{1,2})\)-\d{3}(?=[^\d])'
i=int(input())
while i:
biaoji=0
s=input()
l1=re.findall(m,s)
if len(l1)!=0: #找到符合条件的tag,但注意l1里的元素是子串列表,比如l1[0]=[balabala,ba] l1[0][0]为tag,l1[0][1]为m里的分组一
for l2 in l1:
l3=list(re.findall(n,l2[0]))
if len(l3)!=0: #在符合条件里的tag里找到号码了但这里有疑问,他直接给了n中分组一的值,而不是返回一个类似 [(02)-123,02],直接给了02
time=len(l3) #记录有多少个区号,方便控制输出格式里的逗号
print('<'+l2[1]+'>',end='')
print(l3[0],end='')
for x in range(1,time):
print(','+l3[x],end='')
print('</'+l2[1]+'>')
biaoji=1;
if biaoji==0:
print("NONE")
else:
print("NONE")
i-=1
有些地方不符合我预想的情况,比如re.findall(n,l2[0])哪里,直接返回了分组一的值……
感兴趣的可以自己写代码测试下,目前这里我还没想明白为什么直接返回了分组一的值。