关于python的编码问题的个人小结

菜鸟一枚,在这里对最近学习的编码问题小结了一下,有不对的地方还希望大家指点

1、针对中文编码有UTF-8和GBK,两种编码目前发现的就是编码后的字节数不同,UTF-8中一个汉字是三个字节,而GBK是两个字节。

2、编码的过程(这里以UTF-8为例):

      s=“汉字”(这是一个字符串)----->现在的一个汉字也是三个字节,因为我们在写python程序的时候开头都加了# -- coding:utf8-- 这样的说明,这样程序显示以utf8进行编码,utf大小写都可以

       t=s.decode("utf8")---->对s进行了以utf8的格式解码,这样现在的s就是Unicode码了,t中的一个汉字就占一个字节

       w=t.encode("utf8")--->这是进行utf8编码,现在的w内部组成和s是一样的

3、网页传过来的数据编码问题

      表单以post方式提交过来,其中的数据编码首先以浏览器的设置有关,现在比如将浏览器的编码方式设为UTF-8,这样表单的数据就是以utf8方式编码进行传送,但是表单的数据是通过URL传送过去的,这样的话在python程序中解码需要专门对URL解码的函数unquote

      比如:传过来的数据赋给name,那么unquote(name)就将其解出来

4、从数据库中读出来的数据是经过utf8(自己指定的编码方式)编码的,要想与URL解析出来的非ASCII码的数据进行比较,就需要进行解码,比如s.decode("utf8")

5、数据库读、取数据总是用“set NAMES UTF-8”解决的原因(转载收集)

      解决乱码的方法,我们经常使用“set names utf8”,那么为什么加上这句代码就可以解决了呢?下面跟着我一起来深入set names utf8的内部执行原理

先说MySQL的字符集问题。Windows下可通过修改my.ini内的

PHP代码

[mysql]  

 default-character-set=utf8    //客户端的默认字符集
 [mysqld]

default-character-set=utf8    //服务器端默认的字符集

假设我们把两个都设为utf8,然后在MySQL Command Line Client里面输入“show variebles like“character_set_%”;”,可看到如下字符:
character_set_client   latin1
character_set_connection    latin1
character_set_database     utf8
character_set_results    latin1
character_set_server   utf8
character_set_system     utf8
要是我们通过采用UTF-8的PHP程序从数据库里读取数据,很有可能是一串“?????”或者是其他乱码。

解决办法是,在连接数据库之后,读取数据之前,先执行一项查询“SET NAMES UTF8”,即在PHP里为

mysql_query("SET NAMES UTF8");    

//该句话一定要放在数据库服务器连接语句【$connection=mysql_connect($db_host,$db_user,$db_psw)or die("连接服务器失败");】之后

即可显示正常(只要数据库里信息的字符正常)。

到MySQL命令行输入“SET NAMES UTF8;”,然后执行“show variebles like“character_set_%”;”,发现原来为latin1的那些变量“character_set_client”、“character_set_connection”、“character_set_results”的值全部变为utf8了,原来是这3个变量在捣蛋。

查阅手册,上面那句等于:

SET character_set_client = utf8;       

SET character_set_results = utf8;      

SET character_set_connection = utf8;  

看看这3个变量的作用:
信息输入路径:client→connection→server;
信息输出路径:server→connection→results。
换句话说,每个路径要经过3次改变字符集编码。以出现乱码的输出为例,server里utf8的数据,传入connection转为latin1,传入results转为latin1,utf-8页面又把results转过来。如果两种字符集不兼容,比如latin1和utf8,转化过程就为不可逆的,破坏性的。

但这里要声明一点,“SET NAMES UTF8”作用只是临时的,MySQL重启后就恢复默认了。

接下来就说到MySQL在服务器上的配置问题了。岂不是我们每次对数据库读写都得加上“SET NAMESUTF8”,以保证数据传输的编码一致?能不能通过配置MySQL来达到那三个变量默认就为我们要想的字符集?手册上没说,我在网上也没找到答案。所以,从服务器配置的角度而言,是没办法省略掉那行代码的。
总结:为了让你的网页能在更多的服务器上正常地显示,还是加上“SET NAMES UTF8”吧,即使你现在没有加上这句也能正常访问。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值