【环境】Windows 10 x64
Python 3.6.3
【关于 gb18030 编码】GB 18030 wiki:https://zh.wikipedia.org/wiki/GB_18030
单字节,其值从0到0x7F。
双字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x40到0xFE(不包括0x7F)。
四字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x30到0x39,第三个字节从0x81到0xFE,第四个字节从0x30到0x39。
【解码错误的处理方式】错误:1UnicodeDecodeError:'gb18030' codec can't decode byte0xff in position129535: illegal multibyte sequencebytes.decode
codecs.register_error 样例
异常对象:UnicodeDecodeError
方案一:自定义 replace_errors:
import codecs
# gb18030 乱码 handler
def WalkerGB18030ReplaceHandler(exc):
print('exc.start: %d' % exc.start)
print('exc.end: %d' % exc.end)
print('exc.encoding: %s' % exc.encoding)
print('exc.reason: %s' % exc.reason)
text = ''
for ch in exc.object[exc.start: