python进制和编码

荼靡~

已于 2022-06-22 14:50:20 修改

阅读量437

点赞数

分类专栏： # python基础文章标签： python 进制编码

于 2022-04-17 20:38:08 首次发布

本文链接：https://blog.csdn.net/m0_46926492/article/details/124235859

版权

python基础专栏收录该内容

55 篇文章 3 订阅

订阅专栏

python进制和编码

1.python代码运行方式

脚本式（在终端（cmd）中运行，通过python解释器加文件名)

python ./python01.py

交互式（在终端中，进入python里面，可以运行测试代码，不能持久保存，退出就没有了)

2.进制

计算机中底层的所有数据都是0101011（二进制）的形式存在（图片，文件，视频等）
在这里插入图片描述

2.1进制转换

在这里插入图片描述

十进制转换二进制,八进制，十六进制

v1=bin(25)   '0b11001'
v2=oct(23)   '0o27'
v3=hex(28)	 '0x1c'

二进制,八进制，十六进制转换十进制

v1=int('0b11001',base=2)  25
v2=int('0o27',base=8)     23
v3=int('0x1c',base=16)    28

3.计算机中的单位

由于计算机中本质上所有的东西都以二进制存储和操作，为了方便对于二进制大小的表示，所以就搞了一些单位

b(bit) ,位

1, 1位
10,2位
111,3位

B（byte）,字节

8位是一个字节

10010110  1个字节
10010110 10010110  2个字节

KB(kilobyte) ,千字节

1024个字节就是1个千字节

10010110 10010110 ...  1KB
1KB=1024B=1024*8b

M(Megabyte),兆

1024KB=1M
1M=1024KB=1024*1024 B=1024*1024*8b

G(Gigabyte) ,千兆

1024M=1G

1G=1024M=1024*1024KB=1024*1024*1024B=1024*1024*1024*8b

T(Terabyte),万亿字节

1024G=1T

1T=1024G=1024*1024M=1024*1024*1024KB=1024*1024*1024*1024B=1024*1024*1024*1024*8b

其它更大的单位PB/EB/ZB/YB/BB/NB/DB…

4.编码

编码，文字和二进制之间的一个对照表

4.1ascii编码

ascii规定使用1个字节来表示字母与二进制的对应关系

在这里插入图片描述

4.2gb-2312编码

gb-2312编码,由国家信息标准委员会制作（1980年）

gbk编码，对gb2312进行扩展，包含了中日韩等文字（1995年）

在与二进制做对应关系时，由如下逻辑：

单字节表示，用一个字节表示对应关系，2**8=256
双字节表示，用两个字节表示对应关系，2**16=65536种可能性

4.3 unicode

unicode被称为万国码，为全球的每个文字都分配了一个码位（二进制表示）

ucs2(用固定的两个字节表示一个文字)

00000000 00000000  悟
...
2**16=65535

ucs4(用固定的四个字节表示一个文字)

00000000 00000000 00000000 00000000  无
...
2**32=4294967296

文字	   十六进制        二进制
 ȧ        0227        1000100111  								二进制
 ȧ        0227        00000010 00100111							ucs2
 ȧ        0227        00000000 00000000 00000010 00100111		ucs4
 
乔       4E54           100111001010100							二进制
乔       4E54           01001110 01010100						ucs2
乔       4E54           00000000 00000000 01001110 01010100		ucs4

😆      1F606        11111011000000110  						二进制
😆      1F606        00000000 00000001 11110110 00000110		ucs4

注意：无论是ucs2还是ucs4都有缺点：浪费空间

文字     十六进制     二进制
A        0041      01000001
A        0041      00000000 01000001
A        0041      00000000 00000000 00000000 01000001

unicode的应用:在文件存储的网络传输时，不会直接使用unicode（浪费资源）,而在内存中会使用unicode(便于计算)

本质上：utf-8是对unicode的压缩，用尽量少的二进制去与文字进行对应

  unicode码位范围            utf-8      
   0000 ~ 007F              用1个字节表示
   0080 ~ 07FF              用2个字节表示
   0800 ~ FFFF              用3个字节表示
  10000 ~ 10FFFF            用4个字节表示

具体压缩流程步骤：

第一步：选择转换模板

 码位范围（十六进制）                转换模板
   0000 ~ 007F              0XXXXXXX
   0080 ~ 07FF              110XXXXX 10XXXXXX
   0800 ~ FFFF              1110XXXX 10XXXXXX 10XXXXXX
  10000 ~ 10FFFF            11110XXX 10XXXXXX 10XXXXXX 10XXXXXX
  
  例如：
      "B"  对应的unicode码位为 0042，那么他应该选择的一个模板。
      "ǣ"  对应的unicode码位为 01E3，则应该选择第二个模板。
      "武" 对应的unicode码位为 6B66，则应该选择第三个模板。
      "沛" 对应的unicode码位为 6C9B，则应该选择第三个模板。
      "齐" 对应的unicode码位为 9F50，则应该选择第三个模板。
       😆  对应的unicode码位为 1F606，则应该选择第四个模板。            

注意：一般中文都使用第三个模板（3个字节），这也就是平时大家说中文在utf-8中会占3个字节的原因了。

第二步：在模板中填入数据

- "武"  ->  6B66  ->  110 101101 100110
- 根据模板去套入数据
	1110XXXX 10XXXXXX 10XXXXXX
	1110XXXX 10XXXXXX 10100110
	1110XXXX 10101101 10100110
	11100110 10101101 10100110
在UTF-8编码中 ”武“  11100110 10101101 10100110

- 😆  ->  1F606  ->  11111 011000 000110
- 根据模板去套入数据
	11110XXX 10XXXXXX 10XXXXXX 10XXXXXX
	11110XXX 10XXXXXX 10XXXXXX 10000110
	11110XXX 10XXXXXX 10011000 10000110
	11110XXX 10011111 10011000 10000110
	11110000 10011111 10011000 10000110

4.5python相关编码

字符串(byte)   'hello你好'        unicode处理        一般在内存中
字节(byte)     b'helloasfdsgdf'  utf-8编码或gbk编码  一般用于文件或网络处理

v1='你'
v2='你'.encode('utf-8')
v3='你'.encode('gbk')

荼靡~

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
python进制和编码

交互式（在终端中，进入python里面，可以运行测试代码，不能持久保存，退出就没有了)2.进制计算机中底层的所有数据都是0101011（二进制）的形式存在（图片，文件，视频等）二进制,八进制，十六进制转换十进制3.计算机中的单位由于计算机中本质上所有的东西都以二进制存储和操作，为了方便对于二进制大小的表示，所以就搞了一些单位B（byte）,字节KB(kilobyte) ,千字节M(Megabyte),兆G(Gigabyte) ,千兆T(Terabyte
复制链接

扫一扫