python进制和编码
1.python代码运行方式
- 脚本式(在终端(cmd)中运行,通过python解释器加文件名)
python ./python01.py
- 交互式(在终端中,进入python里面,可以运行测试代码,不能持久保存,退出就没有了)
2.进制
计算机中底层的所有数据都是0101011(二进制)的形式存在(图片,文件,视频等)
2.1进制转换
- 十进制转换二进制,八进制,十六进制
v1=bin(25) '0b11001'
v2=oct(23) '0o27'
v3=hex(28) '0x1c'
- 二进制,八进制,十六进制转换十进制
v1=int('0b11001',base=2) 25
v2=int('0o27',base=8) 23
v3=int('0x1c',base=16) 28
3.计算机中的单位
由于计算机中本质上所有的东西都以二进制存储和操作,为了方便对于二进制大小的表示,所以就搞了一些单位
- b(bit) ,位
1, 1位
10,2位
111,3位
- B(byte),字节
8位是一个字节
10010110 1个字节
10010110 10010110 2个字节
- KB(kilobyte) ,千字节
1024个字节就是1个千字节
10010110 10010110 ... 1KB
1KB=1024B=1024*8b
- M(Megabyte),兆
1024KB=1M
1M=1024KB=1024*1024 B=1024*1024*8b
- G(Gigabyte) ,千兆
1024M=1G
1G=1024M=1024*1024KB=1024*1024*1024B=1024*1024*1024*8b
- T(Terabyte),万亿字节
1024G=1T
1T=1024G=1024*1024M=1024*1024*1024KB=1024*1024*1024*1024B=1024*1024*1024*1024*8b
- 其它更大的单位PB/EB/ZB/YB/BB/NB/DB…
4.编码
编码,文字和二进制之间的一个对照表
4.1ascii编码
ascii规定使用1个字节来表示字母与二进制的对应关系
00000000
00000001
...
11111111
2**8=256
4.2gb-2312编码
gb-2312编码,由国家信息标准委员会制作(1980年)
gbk编码,对gb2312进行扩展,包含了中日韩等文字(1995年)
在与二进制做对应关系时,由如下逻辑:
- 单字节表示,用一个字节表示对应关系,2**8=256
- 双字节表示,用两个字节表示对应关系,2**16=65536种可能性
4.3 unicode
unicode被称为万国码,为全球的每个文字都分配了一个码位(二进制表示)
- ucs2(用固定的两个字节表示一个文字)
00000000 00000000 悟
...
2**16=65535
- ucs4(用固定的四个字节表示一个文字)
00000000 00000000 00000000 00000000 无
...
2**32=4294967296
文字 十六进制 二进制
ȧ 0227 1000100111 二进制
ȧ 0227 00000010 00100111 ucs2
ȧ 0227 00000000 00000000 00000010 00100111 ucs4
乔 4E54 100111001010100 二进制
乔 4E54 01001110 01010100 ucs2
乔 4E54 00000000 00000000 01001110 01010100 ucs4
😆 1F606 11111011000000110 二进制
😆 1F606 00000000 00000001 11110110 00000110 ucs4
注意:无论是ucs2还是ucs4都有缺点:浪费空间
文字 十六进制 二进制
A 0041 01000001
A 0041 00000000 01000001
A 0041 00000000 00000000 00000000 01000001
unicode的应用:在文件存储的网络传输时,不会直接使用unicode(浪费资源),而在内存中会使用unicode(便于计算)
本质上:utf-8是对unicode的压缩,用尽量少的二进制去与文字进行对应
unicode码位范围 utf-8
0000 ~ 007F 用1个字节表示
0080 ~ 07FF 用2个字节表示
0800 ~ FFFF 用3个字节表示
10000 ~ 10FFFF 用4个字节表示
具体压缩流程步骤:
- 第一步:选择转换模板
码位范围(十六进制) 转换模板
0000 ~ 007F 0XXXXXXX
0080 ~ 07FF 110XXXXX 10XXXXXX
0800 ~ FFFF 1110XXXX 10XXXXXX 10XXXXXX
10000 ~ 10FFFF 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX
例如:
"B" 对应的unicode码位为 0042,那么他应该选择的一个模板。
"ǣ" 对应的unicode码位为 01E3,则应该选择第二个模板。
"武" 对应的unicode码位为 6B66,则应该选择第三个模板。
"沛" 对应的unicode码位为 6C9B,则应该选择第三个模板。
"齐" 对应的unicode码位为 9F50,则应该选择第三个模板。
😆 对应的unicode码位为 1F606,则应该选择第四个模板。
注意:一般中文都使用第三个模板(3个字节),这也就是平时大家说中文在utf-8中会占3个字节的原因了。
- 第二步:在模板中填入数据
- "武" -> 6B66 -> 110 101101 100110
- 根据模板去套入数据
1110XXXX 10XXXXXX 10XXXXXX
1110XXXX 10XXXXXX 10100110
1110XXXX 10101101 10100110
11100110 10101101 10100110
在UTF-8编码中 ”武“ 11100110 10101101 10100110
- 😆 -> 1F606 -> 11111 011000 000110
- 根据模板去套入数据
11110XXX 10XXXXXX 10XXXXXX 10XXXXXX
11110XXX 10XXXXXX 10XXXXXX 10000110
11110XXX 10XXXXXX 10011000 10000110
11110XXX 10011111 10011000 10000110
11110000 10011111 10011000 10000110
4.5python相关编码
字符串(byte) 'hello你好' unicode处理 一般在内存中
字节(byte) b'helloasfdsgdf' utf-8编码或gbk编码 一般用于文件或网络处理
v1='你'
v2='你'.encode('utf-8')
v3='你'.encode('gbk')