我正在尝试将包含非ascii字符的传入字节字符串转换为有效的utf-8字符串,以便可以将is转储为json。b = '\x80'
u8 = b.encode('utf-8')
j = json.dumps(u8)
我希望j是'\xc2\x80',但是我得到了:UnicodeDecodeError: 'ascii' codec can't decode byte 0x80 in position 0: ordinal not in range(128)
在我的情况下,“b”来自mysql,通过google协议缓冲区,并由一些blob数据填充。
有什么想法吗?
编辑:
我有以太网帧作为blob存储在一个mysql表中(请大家注意,不要讨论表中为什么有数据包)。表排序规则是utf-8,db层(sqlalchemy,non-orm)正在获取数据并创建结构(google protocol buffers),将blob存储为python“str”。在某些情况下,我直接使用协议缓冲区而没有任何问题。在其他情况下,我需要通过json公开相同的数据。我注意到,当json.dumps()执行其操作时,'\x80'可以替换为无效的unicode字符(\ufffd iirc)