python encode

了解一下基本的编码类型

ASCII编码:
计算机最早的编码方式,由美国发明的。设计时采用8bits来表示一个字节(byte).一个byte能表示2^8=255个不同的字符。美国字符只有大小写字母和一些特殊字符总共只有127左右的字符,所以一个字符完全满足当时美国的需求。ascii编码是将字母和特殊字符根据一定的顺序而制作出来的,(相当于密码本)。

规定1个字符占一个字节 ,占8bits.

GB2312
由于最初的ascii编码最大只能255个字符,由于中文字符数远超于。故中国自己发明了gb2312编码方式。规定一个中文字符至少需要2个字节(byte).这样可以表示2^16=65535个中文字符了。类似日本有Shift_JIS,韩文EUC-kr编码。
各国都有自己的标准,就不可避免出现冲突,在多语言混合的文本中,显示出来会有乱码。

1个字符占2个字节,占16bits

Unicode编码:
由于会出现有乱码情况,unicode是把世界上所有的语言都统一到一套编码里来。乱码问题就解决了

最常用的是两个字节表示一个字符。

ascii与unicode区别:
1.ascii 一个字符占1个字节 8bits ,unicode 一个字符占2个字节 16bits
2.ascii 不能表示中文,用unicode 可以来表示中文
3.如果表示一个字母‘A’,ascii 只需要8个bits来表示01000001,unicode 16个bits.

Utf-8编码:
虽然unicode解决了乱码的问题,但是如果一个文件全部都是英文的话,用unicode编码比ascii编码需要多一倍的存储空间,在存储和传输上不划算,本着节约的精神,出现了把unicode编码转化为‘可变长编码’的utf-8
utf-8规范:

  • 常用英文字母被编码成1个字节
  • 中文通常是3个字节
  • 只有很生僻的字符被编码成4-6个字节

计算机系统中,各编码工作的位置:
1.计算机内存中,统一使用unicode编码
2.硬盘和网络传输的时候,转换为utf-8编码
3.用记事本编辑的时候,从文件读取的utf-8编码的字符转为unicode到内存中,编写完成后,保存到磁盘的时候,将内存的unicode编码的字符转为utf-8

在python3中 str类型的数据默认就是unicode编码方式

str(字符串)变为bytes(字节串)
由于python3中字符串的类型是str,在内存中以unicode编码来表示,一个字符对应2个字节。如果在网络传输或存储在磁盘上,就需要将str变为bytes类型

Python对bytes类型的数据用带b前缀的单引号或双引号表示:

>>> 'bC'
'bC'
>>> b'bC'
b'bC'

注意⚠️区分’bC’和b’bC’,前者是str,后者虽然内容显示得和前者一样,但bytes的每个字符都只占用一个字节

str转化为Bytes类型

>>> 'bC'.encode('ascii')
b'bC'
>>> 'bC'.encode('utf-8')
b'bC'
>>> '中文'.encode('utf-8')
b'\xe4\xb8\xad\xe6\x96\x87'

Bytes转为str类型
如果我们从网络或磁盘上读取了字节流,那么读到的数据就是bytes。要把bytes变为str,就需要用decode()方法:

>>> b'bC'.decode('ascii')
'bC'
>>> b'bC'.decode('utf-8')
'bC'
>>> b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')
'中文'
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值