Question7: 针对诡异的HTML编码错乱问题个例

最新推荐文章于 2023-06-09 10:42:40 发布

laoyouzhazi

最新推荐文章于 2023-06-09 10:42:40 发布

阅读量842

点赞数 1

分类专栏： Notes 文章标签： html gzip 乱码 python nginx

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/qq_21264377/article/details/105993286

版权

博客内容讲述了在遇到HTML编码显示错乱的问题时，字符集为GB2312且启用gzip压缩的情况。在尝试解码过程中，直接使用GB2312解码引发错误，但通过尝试GBK和GB18030字符集成功解码。此外，还遇到了一个网站在相同配置下解码直接成功的例子，而另一个则报错提示不是gzipped文件，推测可能与gzip压缩级别或bug有关。

摘要由CSDN通过智能技术生成

偶然发现个别特俗的HTML编码错乱的例子。字符集编码设置在HTML header和response headers，charset是GB2312，启用gzip压缩。

通过代码获取原始数据流：

>>from self_defined_http_connection import *

>>response = connect(“https://www.***.com”)

>>statuscode = getcode(response)

>>statuscode

>>rawdata = response.read()

>>rawdata