python html移除a,img等标签正则处理

python html移除a,img等标签正则处理
正则匹配所有A标签

//分组1和分组2即为href和value
<a\b[^>]+\bhref="([^"]*)"[^>]*>([\s\S]*?)</a>

解释:

  • <a\b #匹配a标签的开始
  • [^>]+ #匹配a标签中href之前的内容
  • \bhref=“([^”]*)" #匹配href的值,并将匹配内容捕获到分组1当中
  • [^>]*> #匹配a标签中href之后的内容
  • ([\s\S]*?) #匹配a标签的value,并捕获到分组2当中,?表示懒惰匹配
  • #匹配a标签的结束

对应python里面的处理

 def replaceA(self,txt):
     print('-----')
     print(">>1 "+txt.group(0))#匹配到的a标签
     print(">>2 "+txt.group(1))#href
     print(">>3 "+txt.group(2))#value
     return ''
#content为html内容     
a3=r'<a\b[^>]+\bhref="([^"]*)"[^>]*>([\s\S]*?)</a>'
content=re.sub(a3, replaceA, content,flags=re.I|re.M|re.S) 

在这里插入图片描述

要注意的是 group 组里面的项是根据正则表达式里分组得来的,同理python要替换其他标签可自行改换正则表达式

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值