054：电话号码

最新推荐文章于 2024-04-08 07:43:52 发布

符义的博客

最新推荐文章于 2024-04-08 07:43:52 发布

阅读量1k

点赞数 1

分类专栏： MOOC 实用Python程序设计测验汇总(2021春季)

本文链接：https://blog.csdn.net/MortyC99430/article/details/115190211

版权

正则表达式电话号码抽取 HTML标签区号匹配规则

关键词由CSDN通过智能技术生成

MOOC 实用Python程序设计测验汇总(2021春季) 专栏收录该内容

4 篇文章 7 订阅

订阅专栏

描述：在这里插入图片描述
输入
有多组数据，每组一行
输出
对每组数据，抽取出其中的tag及其包含的电话号码中的区号输出。每个tag输出为一行。tag外的电话号码不用理会。
如果找不到tag及其包含的电话号码，则输出NONE
数据保证不会出现两个tag重叠的情况。
样例输入

2
<bb>(01)-123<a>bbb(02)-2784KK</a><xy>stk(1)-123(03)-345b</xy>(04)-123</xy><z>(05)-123</zz>zz<yy>(06)-123</yy>
<bb>(01)-123<a><k>1223</k><a>(01)-12</a>

样例输出

<xy>1,03</xy>
<yy>06</yy>
NONE

提示
1） tag中间可以有任何文字，比如 xddd也是一个合法tag
2）在分组的右边可以通过分组的编号引用该分组所匹配的子串
m = r’(((ab*)c)d)e\3’ #要求 ab*cde后面跟着第三分组的内容
r = re.match(m,“abbbcdeabbbkfg”) # 后面的bbb少一个b则不能匹配，因为第三分组是abbb
print(r.group(3)) # abbb
print(r.group()) # abbbcdeabbb
3) 如果一个正则表达式搞不定，可以先用一个正则表达式抽取某个中间结果，再在中间结果里面手工或者用另外的正则表达式进一步分析
来源
Guo Wei

import re
m=r'(<([a-z]+)>.+?</)\2>'
n=r'\((\d{1,2})\)-\d{3}(?=[^\d])'
i=int(input())
while i:
    biaoji=0
    s=input()
    l1=re.findall(m,s)
    if len(l1)!=0: #找到符合条件的tag，但注意l1里的元素是子串列表,比如l1[0]=[balabala,ba] l1[0][0]为tag，l1[0][1]为m里的分组一
        for l2 in l1:
            l3=list(re.findall(n,l2[0]))
            if len(l3)!=0: #在符合条件里的tag里找到号码了但这里有疑问，他直接给了n中分组一的值，而不是返回一个类似 [(02)-123,02],直接给了02
                time=len(l3) #记录有多少个区号，方便控制输出格式里的逗号
                print('<'+l2[1]+'>',end='')
                print(l3[0],end='')
                for x in range(1,time):
                    print(','+l3[x],end='')
                print('</'+l2[1]+'>')
                biaoji=1;

        if biaoji==0:
            print("NONE")
    else:
        print("NONE")
    i-=1