python string utf_python3中string.encode()之后

# python3中string.encode()之后

# 引言

​在学习python的时候,就耳闻python2中的string会时不时出现很奇怪的unicode error。没办法,自认为是个傻瓜,又想偷懒,所以就直接学习python3了,但是无论如何选择,字符串是一个编程语言必须面对的情景,也必须提供对字符串的支持。虽说在python3中,python改善了2中ascii和unicode隐式转换的坑,但是如果不了解背后的知识,还是比较容易遇到编码的错误。那么就来学一学,记一记。

# 问题

​在python3处理字符串的时候,会频繁的遇到编码解码的情况,即encode()、decode()。

如上例,字符串一被编码之后出现了一串字母数字的组合,那么这个东西要怎么解释呢?

# 求知之路

# 1. 疯狂的search

​首先在遇到问题,一头雾水的时候,这正是由于自己掌握的情报比较少,无从下手,这时就需要借助整个人类的力量,在搜索引擎中的海量资源中寻找有用的知识,下面是我找到的一篇文章,给我搜寻答案下的方向。

这篇文章总结了5个事实,那把这5个事实当做结论拿出来。 进程的输入输出的都是bytes。

编程中文本不止256个符号。

进程必须处理byte和unicode。

byte流中不会包含编码信息。

指明的编码可能是错误的。

# 2. 理解byte

​可以知道的是bit是0或者1,占一位,而byte是8个bit的组合,叫做字节。从上面的搜索来看,在进程中输入输出都是按照bytes来的,也就是进程,或者说计算机接收或者处理的最小单位是byte。哎?不是还有bit吗?确实计算机中信息的最小单位是bit,但是bit表示电平的开闭,由于一个bit并不能表示计算机经常处理的信息,所以在计算机中都是将8个bit组合在一起成byte来表示信息。这样进程输入输出(I/O),计算机存储,与网络传输的最小单位就是byte,毕竟如果用bit传输,根本无法判断传输的边界。

# 3. unicode

​在计算机,网络从USA扩展到非英语世界后,传统的使用一个byte来表示英语世界中的,数字,字母,及一些常用的符号的机制就失效了,由于一个byte只有8bit,即只能存储256种信息,而世界上的中文字符,日文字符,阿拉伯字符可不只256种,所以在经过研究,各国都拿出来自己的标准,又不相通,导致一段时间的混乱,最后拿出了unicode方案,unicode规范中,unicode4.0采用了4byte来表示字符,这样就可以表示一百多万个字符,目前只把unicode码中的几十万个码映射到具体的字符上了。就是说unicode规定了一个字符对应的整数值,比如一对应的值就是19968,这个值叫做code point。

# 4. unicode和utf-8

​unicode和utf-8,有了unicode就可以表示世界上所有的字符了,那么为什么还有utf-8等呢?

那是因为unicode4.0使用4个byte来表示字符,那么如果我要表示a这个字符呢?它的code point值为97,要是原原本本的使用unicode来表示那么就成了00000000 00000000 00000000 01100001,这样一看就知道前面的3byte是不要的,所以还需要一种规则来翻译unicode。utf-8出世!utf-8编码规则是一种变长的编码规则,通过上面的例子可以看出,在表示英文字符是实际上并不需要4个byte,只要一个byte就可以了。而对于中文,则需要2-4个byte。

UTF-8编码规则: 对于对于单字节字符,这个字节的第1位为0,后7位为unicode码,所以对于英文来讲utf-8编码和ASCII编码时一样的。

对于n字节字符,第一个字节的前n位为1,n+1位为0,后面n-1个字节的前两位都为10,其他位放置unicode码。 Unicode符号范围(十六进制) UTF-8编码方式(二进制) 0000 0000-0000 007F 0xxxxxxx

0000 0080-0000 07FF 110xxxxx 10xxxxxx

0000 0800-0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx

0001 0000-0010 FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

最后提一个知乎上很好的总结:unicode是字符集,uft-8是编码规则

# 5. 最终解释

​对于一,可以通过python的ord函数来查看这个字符的unicode code point。

那么python中encode之后的一串符号表示的是什么呢?

实际上,python3中encode()之后会得到一个byte串,这个byte串中存放着编码值,比如上例中使用encode(),没有传入参数,则默认的是utf-8编码。那么得到的byte串也就存放着utf-8从unicode通过一些规则得到的码值了,我们将它们转换会去看看。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值