学习目标:Python 字符编码
关于字符编码的发展史,计算机的字符编码并不是一蹴而就的,而是有一个发展的过程。
ASCII 码(20 世纪 60 年代,计算机发明的早期制定的一套字符编码,解决了英文和二进制间的对应关系。
Unicode 码(统一符号的编码)在编码上, 对世界上绝大多数的文字系统进行了整理,编码,使得电脑可以用更为简单的方式来呈现和处理文字,它伴随着通用字符集的标准而发展,同时也以书本的形式对外发表。
UTF - 8
UTF 就是 Unicode 的实现方式,而 UTF -8 是现在互联网上流传最广的 Unicode 实现方式,它只是
Unicode 实现方式中的一种。UTF - 8 是一种针对 Unicode 的可变长度字符编码,也是一种前缀码,它可以用来表示 Unicode 标准中的任何字符,它也是现在电子邮件,网页以及其他存储或者发送文字的应用优先采用的编码。
学习内容:1. 查看一下当前环境的编码格式
提示:这里可以添加要学的内容
import sys
print(sys.getdefaultencoding())
utf-8
学习内容:2. 查看汉字字符的Unicode
print(ord('谭'))
print(chr(35885))
35885
谭
学习内容:3.函数 encode()
这个函数能够将 Unicode 编码的字符串转化为其它编码,默认的是 UTF- 8
string = "hello, 编码"
print(string) # 原字符串
print(string.encode()) # 字符串被默认编码为utf-8格式
print(string.encode('utf-8'))
print(string.encode('gbk')) # gbk格式编码字符串
hello, 编码
b’hello, \xe7\xbc\x96\xe7\xa0\x81’
b’hello, \xe7\xbc\x96\xe7\xa0\x81’
b’hello, \xb1\xe0\xc2\xeb’