python字符编码

字符串的编码分为两大类:

(1)通用的Unicode编码

(2)将Unicode转化成的某种类型的编码如UTF-8、GBK等。

由于计算机只能处理文字,因此在处理文本时必须要先转换为数字才行。计算机采用8bit作为一个字节(byte),使用二进制,所以一个字节可以表示256中不同的状态,每个状态对应一个符号,从00000000到11111111.
各个国家制定了自己的编码来表示本国的文字,其中ACSII编码是一个字节,对应英文字符和二进制数字之间的关系,共规定了128个字符的编码。中国使用GB2312作为简体中文常见的编码方式,两个字节表示一个汉字,理论上最多可以表示256×256=65536个符号。
同时也出现了问题,即同一个字符可能会在不同国家或地区的编码体系中代表不一样的文字。
因此创造了Unicode码,其被称为统一码、万国码,通常是两个字节。为了节省空间,开发了一些中间格式的字符集,被称为通用转换格式Unicode Transformation Format(UTF),常见的有UTF-8和UTF-16。UTF-8最大的特点就是长度可变,可使用1-4个字节表示一个符号,英文字母通常被编为1个字节,与SACII码相同;汉字通常被编为3个字节。

在python3中字符串的编码使用str和bytes两种类型,其中字符串默认编码是str类型,使用Unicode编码。

(1)str字符串:使用Unicode编码;
(2)bytes字符串,使用将Unicode转化成的某种类型的编码,如UTF-8等。
两者之间的转化就用到了encode和decode。其中encode的作用是将Unicode编码转换成其他编码的字符串,而decode是将其他编码的字符串转化为Unicode编码。Unicode不可以再被解码。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值