之前遇到过python向mysql写入汉字乱码的问题,解决了,但是没有记录。这次又遇到了竟然又重新找了一遍资料,太浪费时间了,呜呼...
所以今天记录一下解决过程和自己对编码的理解,方便以后查询。
参考链接:
http://python.jobbole.com/81244/
http://blog.csdn.net/liuxincumt/article/details/8183391
http://stackoverflow.com/questions/11089820/python-and-mysql-incorrect-string-value
1,首先要保证mysql中建立的表和字段的编码类型都是utf8格式的
2,建立连接的时候加上charset='utf8'
3,确保传递的数据是utf8编码的
这样统一编码后,就不会乱码了。
还有unicode格式的编码,例如 s= u'我爱你' 的Unicode编码为u'\u6211\u7231\u4f60' ,经过s.encode('utf8')之后,并不是对s进行编码转换,而是对s进行utf8编码。
显示的时候s.decode('utf8'),解码为Unicode编码u'\u6211\u7231\u4f60',无论是数据库,还是编译器都会将这个Unicode显示为汉字。
上边这个理解是错误的,原因是我忽略的window的cmd shell默认是gbk编码。
unicode是最基础的编码,通过decode('utf8'),或者decode('gbk’)都会得到Unicode码,无论在哪个编译器里(gbk编码环境,或者utf8编码环境),直接print u'\u6211\u7231\u4f60' 都会得到相应的汉字。然后可以对Unicode码进行随意编码,得到自己想要的编码。
由于实践的机器和写文档的机器不在一起,所以就写了写心得,没有例子,欢迎大神拍砖。