html 标签 防止html,如何防止添加额外的html标签?

如果你想让你的代码在每个人的机器上运行,不管他们安装了哪个解析器,等等(基于libxml22.9和2.8构建的相同lxml版本的行为非常不同,stdlibhtml.parser在2.7.2和2.7.3之间有一些根本性的变化,…),你几乎需要处理所有合法的结果。在

如果你知道你有一个碎片,像这样的东西会给你确切的碎片:soup4 = BeautifulSoup('

soup 4
')

if soup4.body:

return soup4.body.next

elif soup4.html:

return soup4.html.next

else:

return soup4

当然,如果你知道你的片段是一个单一的div,那就更容易了,但要想在一个你知道的用例中:

^{pr2}$

如果您想知道为什么会发生这种情况:

BeautifulSoup用于解析HTML文档。HTML片段不是有效文档。它与文档非常接近,但这还不足以保证你会得到你给它的东西。在There are also differences between HTML parsers. If you give Beautiful Soup a perfectly-formed HTML document, these differences won’t matter. One parser will be faster than another, but they’ll all give you a data structure that looks exactly like the original HTML document.

But if the document is not perfectly-formed, different parsers will give different results.

所以,虽然这个确切的区别没有被记录下来,但它只是一个特殊的情况。在

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值