使用正则表达式去掉字符串里的html标签提取中文

import re

htmlString = '<a  href="https://m.weibo.cn/p/index?containerid=100808edb33656f8aaf7c68add26ad8d0fdba4&extparam=%E6%97%A9%E9%A4%90&luicode=10000011&lfid=100103type%3D1%26q%3D%E8%85%8A%E8%82%A0" data-hide=""><span class=\'url-icon\'><img style=\'width: 1rem;height: 1rem\' src=\'http://n.sinaimg.cn/photo/5213b46e/20181127/timeline_card_small_super_default.png\'></span><span class="surl-text">早餐</span></a><br />腊肠蛋炒饭+奇异果?+奶茶☕️<br />这两日又风又雨的,这老天真是说变脸就变脸啊<span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span>来,喝杯奶茶压压惊<span class="url-icon"><img alt=[馋嘴] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_chanzui-ad3f4f182c.png" style="width:1em; height:1em;" /></span> '

str= re.sub(r'<.*?>','',htmlString)
print(str)

返回结果:
早餐腊肠蛋炒饭+奇异果?+奶茶☕️这两日又风又雨的,这老天真是说变脸就变脸啊来,喝杯奶茶压压惊

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值