python去除html中<div>等

用beautifulsoup并不能将全部的去除得到剩余的txt,特别在兴趣段找关键字的时候。

使用re模块可以实现这个功能。

        for a in a_d:
            em_name = str(a.find('em'))
            pattern = re.compile(r'<[^>]+>', re.S)
            result = pattern.sub('', em_name)
            result = result.strip('\n')
            name_value.append(result)

假设a_d是find_all得到的兴趣模块

循环进入后先使用find找到模块内层兴趣模块,比如<em>

使用pattern来查找其中带有<>的修饰词

用sub剔除这些修饰词得到result

剔除其中的回车符号,可选

最后将这些关键字append到list


该语法的关键是re模块匹配的正则表达式。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值