python进制和编码

python进制和编码

1.python代码运行方式

  • 脚本式(在终端(cmd)中运行,通过python解释器加文件名)
python ./python01.py
  • 交互式(在终端中,进入python里面,可以运行测试代码,不能持久保存,退出就没有了)

2.进制

计算机中底层的所有数据都是0101011(二进制)的形式存在(图片,文件,视频等)
在这里插入图片描述

2.1进制转换

在这里插入图片描述

  • 十进制转换二进制,八进制,十六进制
v1=bin(25)   '0b11001'
v2=oct(23)   '0o27'
v3=hex(28)	 '0x1c'
  • 二进制,八进制,十六进制转换十进制
v1=int('0b11001',base=2)  25
v2=int('0o27',base=8)     23
v3=int('0x1c',base=16)    28

3.计算机中的单位

由于计算机中本质上所有的东西都以二进制存储和操作,为了方便对于二进制大小的表示,所以就搞了一些单位

  • b(bit) ,位
1, 110,2111,3
  • B(byte),字节
8位是一个字节

10010110  1个字节
10010110 10010110  2个字节
  • KB(kilobyte) ,千字节
1024个字节就是1个千字节

10010110 10010110 ...  1KB
1KB=1024B=1024*8b
  • M(Megabyte),兆
1024KB=1M
1M=1024KB=1024*1024 B=1024*1024*8b
  • G(Gigabyte) ,千兆
1024M=1G

1G=1024M=1024*1024KB=1024*1024*1024B=1024*1024*1024*8b
  • T(Terabyte),万亿字节
1024G=1T

1T=1024G=1024*1024M=1024*1024*1024KB=1024*1024*1024*1024B=1024*1024*1024*1024*8b
  • 其它更大的单位PB/EB/ZB/YB/BB/NB/DB…

4.编码

编码,文字和二进制之间的一个对照表

4.1ascii编码

ascii规定使用1个字节来表示字母与二进制的对应关系

00000000
00000001
...
11111111

2**8=256

在这里插入图片描述
在这里插入图片描述

4.2gb-2312编码

gb-2312编码,由国家信息标准委员会制作(1980年)

gbk编码,对gb2312进行扩展,包含了中日韩等文字(1995年)

在与二进制做对应关系时,由如下逻辑:

  • 单字节表示,用一个字节表示对应关系,2**8=256
  • 双字节表示,用两个字节表示对应关系,2**16=65536种可能性

4.3 unicode

unicode被称为万国码,为全球的每个文字都分配了一个码位(二进制表示)

  • ucs2(用固定的两个字节表示一个文字)
00000000 00000000...
2**16=65535
  • ucs4(用固定的四个字节表示一个文字)
00000000 00000000 00000000 00000000...
2**32=4294967296
文字	   十六进制        二进制
 ȧ        0227        1000100111  								二进制
 ȧ        0227        00000010 00100111							ucs2
 ȧ        0227        00000000 00000000 00000010 00100111		ucs4
 
乔       4E54           100111001010100							二进制
乔       4E54           01001110 01010100						ucs2
乔       4E54           00000000 00000000 01001110 01010100		ucs4

😆      1F606        11111011000000110  						二进制
😆      1F606        00000000 00000001 11110110 00000110		ucs4

注意:无论是ucs2还是ucs4都有缺点:浪费空间

文字     十六进制     二进制
A        0041      01000001
A        0041      00000000 01000001
A        0041      00000000 00000000 00000000 01000001

unicode的应用:在文件存储的网络传输时,不会直接使用unicode(浪费资源),而在内存中会使用unicode(便于计算)

本质上:utf-8是对unicode的压缩,用尽量少的二进制去与文字进行对应

  unicode码位范围            utf-8      
   0000 ~ 007F              用1个字节表示
   0080 ~ 07FF              用2个字节表示
   0800 ~ FFFF              用3个字节表示
  10000 ~ 10FFFF            用4个字节表示

具体压缩流程步骤:

  • 第一步:选择转换模板
 码位范围(十六进制)                转换模板
   0000 ~ 007F              0XXXXXXX
   0080 ~ 07FF              110XXXXX 10XXXXXX
   0800 ~ FFFF              1110XXXX 10XXXXXX 10XXXXXX
  10000 ~ 10FFFF            11110XXX 10XXXXXX 10XXXXXX 10XXXXXX
  
  例如:
      "B"  对应的unicode码位为 0042,那么他应该选择的一个模板。
      "ǣ"  对应的unicode码位为 01E3,则应该选择第二个模板。
      "武" 对应的unicode码位为 6B66,则应该选择第三个模板。
      "沛" 对应的unicode码位为 6C9B,则应该选择第三个模板。
      "齐" 对应的unicode码位为 9F50,则应该选择第三个模板。
       😆  对应的unicode码位为 1F606,则应该选择第四个模板。            

注意:一般中文都使用第三个模板(3个字节),这也就是平时大家说中文在utf-8中会占3个字节的原因了。
  • 第二步:在模板中填入数据
- "武"  ->  6B66  ->  110 101101 100110
- 根据模板去套入数据
	1110XXXX 10XXXXXX 10XXXXXX
	1110XXXX 10XXXXXX 10100110
	1110XXXX 10101101 10100110
	11100110 10101101 10100110
在UTF-8编码中 ”武“  11100110 10101101 10100110

- 😆  ->  1F606  ->  11111 011000 000110
- 根据模板去套入数据
	11110XXX 10XXXXXX 10XXXXXX 10XXXXXX
	11110XXX 10XXXXXX 10XXXXXX 10000110
	11110XXX 10XXXXXX 10011000 10000110
	11110XXX 10011111 10011000 10000110
	11110000 10011111 10011000 10000110

4.5python相关编码

字符串(byte)   'hello你好'        unicode处理        一般在内存中
字节(byte)     b'helloasfdsgdf'  utf-8编码或gbk编码  一般用于文件或网络处理
v1='你'
v2='你'.encode('utf-8')
v3='你'.encode('gbk')
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

荼靡~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值