Python 正则表达式,html标签 提取

标签:

import re
mystr1="<title>helloworld</title>"
res=re.match("<\w*>\w*</\w[a-zA-Z]*>",mystr1)   #前后标签不一样也能匹配
print(res)
#(\w*)和\\1 对应匹配,前面的必须加括号
res1=re.match("<([a-zA-Z]*)>\w*</\\1>",mystr1)  #前后标签必须一样才能匹配 
print(res1)

嵌套标签:

import re

mystrs="<HTML><title>百度一下,你就知道 </title></HTML>"
#标签对称,(\w*) (\w*)  \\2 \\1 必须对称,相等,前面标签必须有括号
res=re.match("<(\w*)><(\w*)>.*</\\2></\\1>",mystrs)
print(res)
标签名称:
import  re
#(?P<name1>) 取名称为name1   (?P=name1)和名称是name1的正则表达式对应
mystrs="<HTML><title>百度一下,你就知道 </title></HTML>"
res=re.match("<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>",mystrs)
print(res)


  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值