除去爬虫结果中断HTML标签,python爬虫去除html中特定标签、去除注释、替换实体...

python爬虫去除html中特定标签、去除注释、替换实体

前言:本文主要讲w3lib库的四个函数

html.remove_tags()

html.remove_tags_with_content()

html.remove_comments()

html.remove_entities()

文章目录

python爬虫去除html中特定标签、去除注释、替换实体

remove_tags

remove_tags_with_content

remove_comments

remove_entities

remove_tags

作用:去除或保留标签,但是仅仅是去除标签,正文部分是不做处理的

2c5279d642b17daf071f4ff5145cb580.png

看其函数具有四个变量,

第一个是文本,即你需要传入的网页源码,必须是字符串

第二个是你要去除掉的标签,需要传入的参数类型是元组,原理是根据正则匹配去除的

第三个是你要保留的标签,需要传入的参数类型依旧是元组

第四个是编码

看备注我们可以得知,第二第三个参数总共有四种状态

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值