字符编码 - 文件处理

三水萧%s

已于 2023-03-19 21:57:26 修改

阅读量94

点赞数

文章标签： python

于 2023-03-19 21:55:00 首次发布

本文链接：https://blog.csdn.net/2301_76472610/article/details/129656339

版权

什么是字符编码

人类在与计算机交互时，用的都是人类能够读懂的字符，比如中文，英文等。。而计算机只能识别二进制数0100...,由人类的字符到计算机中的数字，中间就需要一个转换过程，翻译的过程必须参照一个特定的标准，该标准称之为字符编码表，该表上存放的就是字符与数字一一对应的关系。

字符编码表发展史

现代计算机起源于美国，所以最先考虑仅仅是让计算机识别英文字符，于是诞生了ASCII表

阶段一

# ASCII表的特点:
1、只有英文字符与数字的一一对应关系
2、一个英文字符对应1Bytes，1Bytes=8bit，8bit最多包含256个数字，可以对应256个字符，足够表示所有英文字符

阶段二

为了让计算机能够识别中文和英文，中国人定制了GBK，每个国家都各自的字符，为让计算机能够识别自己国家的字符外加英文字符，各个国家都制定了自己的字符编码表

# GBK表的特点：
   1、只有中文字符、英文字符与数字的一一对应关系
   2、一个英文字符对应1Bytes
   一个中文字符对应2Bytes
   补充说明：
   1Bytes=8bit，8bit最多包含256个数字，可以对应256个字符，足够表示所有英文字符
   2Bytes=16bit，16bit最多包含65536个数字，可以对应65536个字符，足够表示所有中文字符

阶段三

unicode于1990年开始研发，1994年正式公布，具备两大特点：

1. 存在所有语言中的所有字符与数字的一一对应关系,即兼容万国字符

2. 与传统的字符编码的二进制数都有对应关系，详解如下

编码与解码

utf - 8的由来

理论上是可以将内存中unicode格式的二进制直接存放于硬盘中的，但由于unicode固定使用两个字节来存储一个字符，如果多国字符中包含大量的英文字符时，使用unicode格式存放会额外占用一倍空间

utf-8是针对Unicode的可变长度字符编码：一个英文字符占1Bytes，一个中文字符占3Bytes，生僻字用更多的Bytes存储

字符编码的应用

我们学习字符编码就是为了存取字符时不发生乱码问题，在python3中默认为utf-8，在python2中默认为ASCII

1. 保证存的时候不乱：在由内存写入硬盘时，必须将编码格式设置为支持所输入字符的编码格式
2. 保证存的时候不乱：在由硬盘读入内存时，必须采用与写入硬盘时相同的编码格式

encode编码与decode解码的使用

# 1、unicode格式------编码encode-------->其它编码格式
x='上' # 在python3在'上'被存成unicode
res=x.encode('utf-8')
res,type(res) # unicode编码成了utf-8格式，而编码的结果为bytes类型，可以当作直接当作二进制去使用
#(b'\xe4\xb8\x8a', <class 'bytes'>)



# 2、其它编码格式------解码decode-------->unicode格式
res.decode('utf-8') 
#'上'

文件处理

文件操作基本流程

# 1. 打开文件，由应用程序向操作系统发起系统调用open(...)，操作系统打开该文件，对应一块硬盘空间，并返回一个文件对象赋值给一个变量f
f=open('a.txt','r',encoding='utf-8') #默认打开模式就为r

# 2. 调用文件对象下的读/写方法，会被操作系统转换为读/写硬盘的操作
data=f.read()

而python自动的垃圾回收机制决定了我们无需考虑del f，这就要求我们，在操作完毕文件后，一定要记住f.close()，虽然我们如此强调，但是大多数读者还是会不由自主地忘记f.close()，考虑到这一点，python提供了with关键字来帮我们管理上下文

# 1、在执行完子代码块后，with 会自动执行f.close()
with open('a.txt','w') as f:
	pass 

# 2、可用用with同时打开多个文件，用逗号分隔开即可
with open('a.txt','r') as read_f,open('b.txt','w') as write_f:  
	data = read_f.read()
	write_f.write(data)