python自学之路三(二):关于编码方面的知识

1、编码

  • 不同的密码本之间不能互相识别
  • 数据在内存中全部是以Unicode编码的,但是当你的数据用于网络传输或者存到硬盘中,必须是以非Unicode编码(utf-8,gbk等等)

​ (1)、ASCLL码:只包含英文字母,数字,特殊字符。

​ 0000 0001(8位)

​ (2)、gbk:国标码,英文字母,数字,特殊字符和中文

​ 一个英文字母:0000 0001(8位)

​ 一个中文:0000 0001 0100 0001(16位)

​ (3)、Unicode:万国码,把世界上所有的文字都记录到这个密码本

​ 起初一个字符用2个字节(不够用)

​ 后来一个字符用4个字节(浪费)

​ (4)、UTF-8:升级,最少用一个字节表示一个字符

​ 一个字节表示英文

​ 两个字节表示欧洲文字

​ 三个字节表示亚洲文字

​ 示例:‘中国12he’ :GBK:8个字节

​ ‘中国12he’ :UTF-8:10个字节

  • 编码的进阶

    • content =‘hello’

      • 内存中的编码方式:Unicode
      • 表现形式:‘hello’
    • 在存储或者转发时要转化成bytes(特殊的字符串类型)类型

    • bytes:

      • 网络传输,磁盘存储

      • 内存中的编码方式:非Unicode

      • 表现形式:b‘hello’

      • b=b'hello'
        print(b,type(b))
        #b'hello' <class 'bytes'>
        #这种方式b后边只能加ASCLL码里边的
        
        s1='中国'
        b=s1.encode('utf-8')
        print(b)
        #b'\xe4\xb8\xad\xe5\x9b\xbd
        --bytes数据类型的中文表现形式
        
  • str <—> bytes

    • 只能与字符串str进行互换,其他数据类型要先转化成str,在转化成bytes

    • str:文字文本 Unicode

    • bytes:字节文本 非Unicode

    • b1=s1.encoding(‘utf-8’)=

      等价于b1=bytes(s1,encding=‘utf-8’)

    • s1 = '中国'
      b1 = s1.encode('utf-8')    --编码
      --指定转化类型utf-8
      b1=b'\xe4\xb8\xad\xe5\x9b\xbd'
      s2=b1.decode('utf-8')     --解码
      --用什么编码编过来的,就用什么编过去
      
    • 要想转化两种非Unicode编码,需要先转化为Unicode编码

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值