1.背景
最近在做数据库大作业,准备用Python的pymssql库连接SQL Sever,然后用tkinter做一个简单的图形界面。
当时执行查询语句后,利用cursor.fetchall()方法获取执行结果的时候出现中文乱码,就像这样:
代码:
self.cursor.execute("select * from director where dno = '" + self.no.get()+"'")
data = self.cursor.fetchall()
结果:
汉字部分出现乱码,如图
(‘1111111111’, 'Áõ¿¡ ', 20, 'ÄÐ ', '»úе2203 ', ‘1’, '1111111111 ')
2.分析
查了资料,出现中文乱码的原因可能是由于数据库中存储的字符集与Python解释器所使用的字符集不一致导致的。
可以在连接数据库时,通过指定字符集来解决这个问题。例如,如果数据库中存储的字符集是UTF-8,可以在连接字符串中添加charset='utf8'
参数。
但是我试了发现utf8
不行,最后改成了charset="cp936"
,就没有了乱码,具体如下。
3.修改
原来连接数据库的语句如下:
conn = pymssql.connect(host="localhost", port="1433", user=self.user, password=self.password)
加上charset
参数后:
conn = pymssql.connect(host="localhost", port="1433", user=self.user, password=self.password,charset="cp936")
再运行就会发现已无乱码。
4.拓展
-
数据库中存储的字符集是指用于表示和存储数据的一种编码方式。不同的字符集可以支持不同的语言和字符,例如UTF-8字符集可以支持中文、日文、韩文等亚洲语言,而ASCII字符集则只能支持英文字母和数字等字符。
-
CP936是一种中文字符集编码,也称为GBK编码。它是由中国国家标准委员会制定的一种汉字编码标准,用于将汉字转换为计算机能够识别的二进制代码。CP936编码支持简体中文、繁体中文和日文等多种语言,并且可以表示超过70,000个汉字和50,000个汉字拼音。
-
在Windows操作系统中,默认使用CP936编码来处理文本文件,因此如果你在Windows下编写或编辑文本文件时,需要确保文件的编码格式为CP936。