Python BeautifulSoup库致命错误！！！

最新推荐文章于 2022-08-31 19:40:20 发布

1u sir

最新推荐文章于 2022-08-31 19:40:20 发布

阅读量330

点赞数 1

分类专栏： beautifulSoup DOCTYPE声明文章标签： python html

本文链接：https://blog.csdn.net/github_37941957/article/details/115243819

版权

beautifulSoup 同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

DOCTYPE声明

1 篇文章 0 订阅

订阅专栏

Python BeautifulSoup库致命错误！！！

不多BB，今天工作需要看了下python的 BeautifulSoup库。大致功能是想读取一个html文件。并修改其中的一些内容。方式也很简单。大致伪代码：

with open("test.html", encoding="utf-8") as f:
    html_str = f.read()
html_soup = BeautifulSoup(html_str, "html.parser")

html_soup.body.div.decompose()
html_soup.body.img.decompose()
ret = html.tostring(html.fromstring(html_soup.prettify()))
with open(out_file,mode='wb+') as f:
    f.write(ret)
print(f"处理完毕，输出文件为{out_file}")

读取指定文件，将需要修改的组件删除或者修改。最后在格式化输出。到指定的文件中。

其中最最致命的bug出来了。他会把html文件开头的“<!DOCTYPE html>”字符忽略掉。导致正常的浏览器解析会出问题。至于DOCTYPE未声明会导致出现的问题是什么。可以去百度下。其大致的作用是：

声明文档的解析类型(document.compatMode)，避免浏览器的怪异模式。
document.compatMode：
BackCompat：怪异模式，浏览器使用自己的怪异模式解析渲染页面。
CSS1Compat：标准模式，浏览器使用W3C的标准解析渲染页面。
这个属性会被浏览器识别并使用，但是如果你的页面没有DOCTYPE的声明，那么compatMode默认就是BackCompat,

这也就是恶魔的开始 – 浏览器按照自己的方式解析渲染页面，那么，在不同的浏览器就会显示不同的样式。
如果你的页面添加了那么，那么就等同于开启了标准模式，那么浏览器就得老老实实的按照W3C的
标准解析渲染页面，这样一来，你的页面在所有的浏览器里显示的就都是一个样子了。
这就是<!DOCTYPE html>的作用。