python字符编码ASCII, Unicode, UTF-8

bit, byte
我们先理解下比特bit,字节byte的概念。比特bit是表示信息的最小单位,是二进制中位,也就是0或者1。字节byte是计算机中用于计量存储容量的计量单位,1字节等于8位,也就是1 byte = 8 bit,所以可以表示00000000 ~ 11111111,转化为十进制,1个字节可以表示0~255的整数

ASCII
ASCII编码,采用的是1个字节来表示,所以其最多也就是256个,ASCII编码前128个数,用来表示:

  • 26个大写字母
  • 26个小写字母
  • 0~9的字符数字
  • 常见的运算符、标点符号等
  • 取消、回车、空格等等

Unicode
显然一个字节是无法显示所有的中文的,而且1个字节已经被使用了,世界上还有很多的语言,所以我们使用2个字节来表示,2个字节可以达到0~65535个整数,用来表示中文是可以的,也可以表示ASCII,只需要在前边加0即可,这样就形成了统一的编码Unicode,Unicode编码在内存中使用

UTF-8
Unicode编码如果表示大量的英文字符,就会浪费很大的空间,所以我们可以采用“可变长编码” UTF-8来实现,一般ASCII使用1个字节来表示,中文根据数字大小,使用3个字节来表示。UTF-8一般在存储(文件保存时)或者传输中(服务器传输信息到浏览器)使用。

python脚本中,如果包含中文,就得声明UTF-8编码,否则会出现乱码。如果使用Notepad++,还需要修改成"UTF-8 without BOM”才是使用UTF-8编码

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值