python 去掉常规的html标签

前言:

写爬虫的时候经常抓取带 html 标签的页面,如果针对文字匹配,html 标签就变得一无是处,所以需要清洗掉。

1.技术说明

html 标签一般是比较规整的由 <>包裹内容产生的,只要把 <>找出来,并把其中包裹的字符删除就可以做到简单的清洗。基本思想就是正则
正则表达式如下:

r'<[^>]+>'  或者  r'</?[^>]+>'

解释:匹配左右都含有尖括号的字符串,并且其包裹的内容里面是非 > 的字符
为什么要说是非 > 字符而不是任意字符[.],举个例子:
‘<a href="csdn.net">测试<a href="baidu.com">'
上述标签,我们需要保留“测试”两个字,如果采用任意字符 ,因为 + 是贪婪匹配,
所以 会匹配第一个 < 和最后一个 >,这样就把整个字符串都匹配了,会一起删掉的
2.测试 demo
import re


html = '<a href="https://blog.csdn.net/qingquanyingyue">清泉影月</a>,技术边缘OB'
text = re.sub(r'<[^>]+>', '', html)
print(text)

result:
清泉影月,技术边缘OB
  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值