偶然发现个别特俗的HTML编码错乱的例子。字符集编码设置在HTML header和response headers,charset是GB2312,启用gzip压缩。
通过代码获取原始数据流:
>>from self_defined_http_connection import *
>>response = connect(“https://www.***.com”)
>>statuscode = getcode(response)
>>statuscode
>>rawdata = response.read()
>>rawdata
可以看到是显示的是二进制的十六进制表现编码(representation)。现在就开始解码。
如果直接decode解码会怎么样&#