数据库varbinary字符串乱码问题

最新推荐文章于 2024-09-15 19:45:28 发布

koko2015c

最新推荐文章于 2024-09-15 19:45:28 发布

阅读量6.6k

点赞数

分类专栏： Python DataBase 文章标签： python sql server

本文链接：https://blog.csdn.net/koko2015c/article/details/75675384

版权

Python 同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

DataBase

6 篇文章 0 订阅

订阅专栏

最近在用Python连接SqlServer数据库，从数据库返回的字段出现乱码问题。

乱码形式如下：

 'A\x04\x96\xb58\xe8SQ\x9crj,\x91\xe6\x1e\xc1\x16\x00\xae\x13\x90\x81:b|f\xfb\x8b\xe7\x94{\xe6<R\xdau\x897\x95\x15\xd4\xe0\xa6\x04\xf8\x14\x17\x81\xe6"\x94r\x11f\xbfb\x1es\xa8,\xbf#B\xc8X\xee\xac'

数据库中实际存储的内容为：

0x410496B538E853519C726A2C91E61EC11600AE1390813A627C66FB8BE7947BE63C52DA7589379515D4E0A604F8141781E62294721166BF621E73A82CBF2342C858EEAC

在数据库中，查询的字段属性是：varbinary
varbinary是一个变长二进制数据，一般用来存储图片。

第一步、查看数据库编码类型

SELECT  COLLATIONPROPERTY('Chinese_PRC_Stroke_CI_AI_KS_WS', 'CodePage')

运行结果为：936

因为：
936 简体中文GBK
950 繁体中文BIG5
437 美国/加拿大英语
932 日文
949 韩文
866 俄文
65001 unicode UFT-8
所以，该数据库编码格式为GBK

2、使用pymssql连接数据库是，设置字符集

由于pymssql不支持GBK等格式，只支持UTF8，所以设置如下：

conn=pymssql.connect(server=server,user=user,password=password,database=db,charset='utf8')

查看pymssql使用文档，发现官方没有给出此参数可接收的实例字符串。进行猜测性调试：

import sys
reload(sys)
sys.setdefaultencoding('utf-8')
//或者
#encoding=utf-8

4、依然乱码无果，所以对照真实记录与乱码，寻找其中的规律。

//乱码
'A\x04\x96\xb58 \x9crj,\x91\xe6\x1e\xc1\x16\x00\xae\x13\x90\x81:b|f\xfb\x8b\xe7\x94{\xe6<R\xdau\x897\x95\x15\xd4\xe0\xa6\x04\xf8\x14\x17\x81\xe6"\x94r\x11f\xbfb\x1es\xa8,\xbf#B\xc8X\xee\xac'

//真实结果
0x410496B538E853519C726A2C91E61EC11600AE1390813A627C66FB8BE7947BE63C52DA7589379515D4E0A604F8141781E62294721166BF621E73A82CBF2342C858EEAC

0x ：表示是一个16进制字符串。
真实乱码
41 A
04 \x04
96 \x96
B538 \b58
E85351 \xe8SQ
………..

对照ASCII码与16进制转换表

16进制 ASCII码
41 A
04 eot
96
b5
38 8
e8
53 S
51 Q
………………

所以，乱码的二进制和实际数据二进制是一致的。但是sql查询返回的结果是把部分16进制转化成ASCII码，没有特殊字符的ASCII码，使用的是原来的16进制。

5、找到原因后，就可以解决问题了，由于乱码是16进制与ASCII码的混合编码，所以需要单独编写一个函数完成解析的功能。

下面附上我写的解析函数，欢迎更优的解决函数：

#encoding=utf-8
class Decode:
    """
    功能：解决sql返回结果乱码问题
    """
    def MessyCode_To_Hex(self,str):
        """
        将乱码解码为数据库中存储的格式
        :param str: 
        :return: 
        """
        str = repr(str)
        TempList = list()
        reslist = str.replace('x', '0x').split('\\')
        for i in reslist:
            if len(i) == 2:
                i = hex(ord(i[1]))
                TempList.append(i)
            elif len(i) == 4:
                TempList.append(i)
            else:
                TempList.append(i[0:4])
                for j in range(4, len(i)):
                    temp = hex(ord(i[j]))
                    TempList.append(temp)

        result = ''
        for k in TempList:
            result = result + k
        result = result.replace('0x', '')
        return result[0:len(result)-2]

测试用例与结果：

str2='A\x04\x96\xb58\xe8SQ\x9crj,\x91\xe6\x1e\xc1\x16\x00\xae\x13\x90\x81:b|f\xfb\x8b\xe7\x94{\xe6<R\xdau\x897\x95\x15\xd4\xe0\xa6\x04\xf8\x14\x17\x81\xe6"\x94r\x11f\xbfb\x1es\xa8,\xbf#B\xc8X\xee\xac'

print p.MessyCode_To_Hex(str2)