标签:
import re
mystr1="<title>helloworld</title>"
res=re.match("<\w*>\w*</\w[a-zA-Z]*>",mystr1) #前后标签不一样也能匹配
print(res)
#(\w*)和\\1 对应匹配,前面的必须加括号
res1=re.match("<([a-zA-Z]*)>\w*</\\1>",mystr1) #前后标签必须一样才能匹配
print(res1)
嵌套标签:
import re
mystrs="<HTML><title>百度一下,你就知道 </title></HTML>"
#标签对称,(\w*) (\w*) \\2 \\1 必须对称,相等,前面标签必须有括号
res=re.match("<(\w*)><(\w*)>.*</\\2></\\1>",mystrs)
print(res)
标签名称:
import re
#(?P<name1>) 取名称为name1 (?P=name1)和名称是name1的正则表达式对应
mystrs="<HTML><title>百度一下,你就知道 </title></HTML>"
res=re.match("<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>",mystrs)
print(res)