文件的读写

最新推荐文章于 2024-06-20 17:54:56 发布

m0_73505947

最新推荐文章于 2024-06-20 17:54:56 发布

阅读量55

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/m0_73505947/article/details/129982169

版权

python 专栏收录该内容

20 篇文章 0 订阅

订阅专栏

编码

我们先来看编码。编码的本质就是让只认识0和1的计算机，能够理解我们人类使用的语言符号，并且将数据转换为二进制进行存储和传输。

这种从人类语言到计算机语言转换的形式，就叫做编码表，它让人类语言和计算机语言能够一一对应起来。

二进制

两个二进制位可以表示十进制的0,1,2,3四种状态。

用来存放一位0或1，就是计算机里最小的存储单位，叫做【位】，也叫【比特】（bit）。我们规定8个比特构成一个【字节】（byte），这是计算机里最常用的单位。

而百兆宽带，下载速度最多能达到十多兆，是因为运营商的带宽是以比特每秒为单位的，比如100M就是100Mbit/s。

而我们常看到的下载速度KB却是以字节每秒为单位显示的，1byte = 8bit，所以运营商说的带宽得先除以8，你的百兆宽带下载速度，也就是十几兆了。

编码表

计算机一开始发明的时候，只是用来解决数字计算的问题。后来人们发现，计算机还可以做更多的事，正所谓能力越大，责任越大。但由于计算机只识“数”，因此人们必须告诉计算机哪个数字来代表哪个特定字符。

于是除了0、1这些阿拉伯数字，像a、b、c这样的52个字母（包括大小写），还有一些常用的符号（例如*、#、@等）在计算机中存储时也要使用二进制数来表示，而具体用哪些二进制数字表示哪个符号，理论上每个人都可以有自己的一套规则（这就叫编码）。

但大家如果想要互相沟通而不造成混乱，就必须使用相同的编码规则。如果使用了不同的编码规则，那就会彼此读不懂，这就是“乱码”的由来。

为了避免乱码，一段世界历史就此启动。一开始，是美国首先出台了ASCII编码（读音：/ˈæski/），统一规定了常用符号用哪些二进制数来表示。

因为英文字母、数字再加上其他常用符号，也就100来个，因此使用7个比特位（最多表示128位）就够用了，所以一个字节中被剩下的那个比特位就被默认为0。

再后来呢，这套编码表传入欧洲，才发现这128位不够用啊。比如说法语字母上面还有注音符，这个怎么区分？得！把最后一个比特位也编进来吧。因此欧洲普遍使用一个全字节（8个比特位）进行编码，最多可表示256位，至此，一个字节就用满了！

但是前面的状态0-127位可以共用，但从状态128到255这一段的解释就完全乱套了，比如135在法语，希伯来语，俄语编码中完全是不同的符号。

当计算机漂洋过海来到中国后，问题又来了，计算机完全不认识博大精深的中文，当然也没法显示中文；而且一个字节的256位都被占满了，但中国有10万多个汉字，256位连塞牙缝都不够啊。

于是中国科学家自力更生，重写了一张编码表，也就是GB2312，它用2个字节，也就是16个比特位，来表示绝大部分（65535个）常用汉字。后来，为了能显示更多的中文，又出台了GBK标准。

不仅中国，其他国家也都搞出自己的一套编码标准，这样的话地球村村民咋沟通？日本人发封email给中国人，两边编码表不同，显示的都是乱码。

为了沟通的便利，Unicode（万国码）应运而生，这套编码表将世界上所有的符号都纳入其中。每个符号都有一个独一无二的编码，现在Unicode可以容纳100多万个符号，所有语言都可以互通，一个网页上也可以显示多国语言。

看起来皆大欢喜。但是！问题又来了，自从英文世界吃上了Unicode这口大锅饭，为迁就一些占用字节比较多的语言，英文也要跟着占两个字节。比如要存储A，原本00010001就可以了，现在偏得用两个字节：00000000 00010001才行，这样对计算机空间存储是种极大的浪费！

基于这个痛点，科学家们又提出了天才的想法：UTF-8（8-bit Unicode Transformation Format）。它是一种针对Unicode的可变长度字符编码，它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度，而当字符在ASCII码的范围时，就用一个字节表示，所以UTF-8还可以兼容ASCII编码。

Unicode与UTF-8这种暧昧的关系一言以蔽之：Unicode是内存编码的规范，而UTF-8是如何保存和传输Unicode的手段。

因为二进制是由一堆0和1构成的，过长的数字对于人的阅读有很大障碍，为了解决这一问题，也减少书写的复杂性，我们又引入了八进制和十六进制。

为什么偏偏是16或8进制？2、8、16，分别是2的1次方、3次方、4次方。这一点使得三种进制之间可以非常直接地互相转换。

8进制是用0，1，2，3，4，5，6，7；16进制是用0，1，2，3，4，5，6，7，8，9，a，b，c，d，e，f来表示。比如说，字母K在ASCII编码表用不同进制表示的话是这样的：（你并不需要知道具体的转换规则）

第0，计算机是有自己的工作区的，这个工作区被称为“内存”。数据在内存当中处理时，使用的格式是Unicode，统一标准。

Python3当中，程序处理我们输入的字符串，是默认使用Unicode编码的，所以你什么语言都可以输入。

第1，数据在硬盘上存储，或者是在网络上传输时，用的是UTF-8，因为节省空间。但你不必操心如何转换UTF-8和Unicode，当我们点击保存的时候，程序已经“默默地”帮我们做好了编码工作。

第2，一些中文的文件和中文网站，还在使用GBK，和GB2312。

基于此，有时候面对不同编码的数据，我们要进行一些操作来实现转换。这里就涉及接下来要讲的【encode】（编码）和【decode】（解码）的用法。

encode()和decode()

编码，即将人类语言转换为计算机语言，就是【编码】encode()；反之，就是【解码】decode()。它们的用法如下图所表示：

所谓的编码，其实本质就是把str（字符串）类型的数据，利用不同的编码表，转换成bytes（字节）类型的数据。

我们再来区分下字符和字节两个概念。字符是人们使用的记号，一个抽象的符号，这些都是字符：'1'， '中'， 'a'， '$'， '￥'。

而字节则是计算机中存储数据的单元，一个8位的二进制数。

编码结果中除了标志性的字母b，你还会在编码结果中看到许多\x，你再观察一下这个例子：b'\xce\xe2\xb7\xe3'。

\x是分隔符，用来分隔一个字节和另一个字节。

分隔符还挺常见的，我们在上网的时候，不是会有网址嘛？你经常会看到网址里面有好多的%，它们也是分隔符，替换了Python中的\x。比如像下面这个：

https://www.baidu.com/s?wd=%E5%90%B4%E6%9E%AB

它的意思就是在百度里面，搜索“吴枫”，使用的是UTF-8编码。你眯着眼睛看一看上面的UTF-8编码结果和这一串网址的差异，其实它们除了分隔符以外，是一模一样的。

\xe5\x90\xb4\xe6\x9e\xab  # Python编码“吴枫”的结果
%E5%90%B4%E6%9E%AB # 网址里的“吴枫”

此外，用decode()解码的时候则要注意，UTF-8编码的字节就一定要用UTF-8的规则解码，其他编码同理，否则就会出现乱码或者报错的情况，现在请你将下列字节解码成UTF-8的形式，打印出来。

文件读写

【第1步-开】使用open()函数打开文件。语法是这样的：

file1 = open('/Users/Ted/Desktop/test/abc.txt','r',encoding='utf-8')

file1这个变量是存放读取的文件数据的，以便对文件进行下一步的操作。

open()函数里面有三个参数，对吧

'/Users/Ted/Desktop/test/abc.txt'
'r'
encoding='utf-8'

我们一个个来看。第一个参数是文件的保存地址，一定要写清楚，否则计算机找不到。注意：我和你的文件地址是不一样的哦。

要找到你的文件地址，只需要把你要打开的文件直接拖到编辑器终端的窗口里，就会显示出文件地址，然后复制一下就好。

不过文件的地址有两种:相对路径和绝对路径，拖到终端获取的地址是绝对路径。这两种地址，Mac和Windows电脑还有点傲娇地不太一样，下面我就帮大家捋一捋。

绝对路径就是最完整的路径，相对路径指的就是【相对于当前文件夹】的路径，也就是你编写的这个py文件所放的文件夹路径！

如果你要打开的文件和open.py在同一个文件夹里，这时只要使用相对路径就行了，而要使用其他文件夹的文件则需使用绝对路径。

open('/Users/Ted/Desktop/test/abc.txt'') #绝对路径
open('abc.txt') #相对路径
#相对路径也可以写成open('./abc.txt')

open('/Users/Ted/Desktop/test/word/abc.txt'')
open('word/abc.txt')

open('C:\\Users\\Ted\\Desktop\\test\\abc.txt')
#将'\'替换成'\\'

open(r'C:\Users\Ted\Desktop\test\abc.txt')
#在路径前加上字母r

第二个参数表示打开文件时的模式。这里是字符串 'r'，表示 read，表示我们以读的模式打开了这个文件。

除了'r',其他还有'w'(写入)，'a'(追加)等模式，我们稍后会涉及到。

第三个参数encoding='utf-8'，表示的是返回的数据采用何种编码，一般采用utf-8或者gbk。注意这里是写encoding而不是encode噢。

读文件的三步:开——读——关，【第1步-开】我们就讲完了，现在看【第2步-读】。

file1 = open('/Users/Ted/Desktop/test/abc.txt','r',encoding='utf-8') 
filecontent = file1.read()            
print(filecontent)
file1.close()

为啥要关闭文件呢？原因有两个：1.计算机能够打开的文件数量是有限制的，open()过多而不close()的话，就不能再打开文件了。2.能保证写入的内容已经在文件里被保存好了。

文件关闭之后就不能再对这个文件进行读写了。如果还需要读写这个文件的话，就要再次 open() 打开这个文件。

写入文件

第1步-开】以写入的模式打开文件。

file1 = open('/Users/Ted/Desktop/test/abc.txt','w',encoding='utf-8')

第1行代码：以写入的模式打开了文件"abc.txt"。

open() 中还是三个参数，其他都一样，除了要把第二个参数改成'w'，表示write，即以写入的模式打开文件。

【第2步-写】往文件中写入内容，使用write()函数。

file1 = open('/Users/Ted/Desktop/test/abc.txt', 'w',encoding='utf-8') 
file1.write('张无忌\n')     
file1.write('宋青书\n')

第2-3行代码：往“abc.txt”文件中写入了“张无忌”和“宋青书”这两个字符串。\n表示另起一行。

是这样子的，'w'写入模式会给你暴力清空掉文件，然后再给你写入。如果你只想增加东西，而不想完全覆盖掉原文件的话，就要使用'a'模式，表示append，你学过，它是追加的意思。

如果重新再来一遍的话，就要这样写：

file1 = open('/Users/Ted/Desktop/test/abc.txt', 'a',encoding='utf-8') 
#以追加的方式打开文件abc.txt
file1.write('张无忌\n')     
#把字符串'张无忌'写入文件file1
file1.write('宋青书\n')     
#把字符串'宋青书'写入文件file1

【第3步-关】还是要记得关闭文件，使用close()函数，看代码：

file1 = open('/Users/Ted/Desktop/test/abc.txt','a',encoding='utf-8') 
file1.write('张无忌\n')     
file1.write('宋青书\n')     
file1.close()

我们可以看到里面有'wb'的模式，它的意思是以二进制的方式打开一个文件用于写入。因为图片和音频是以二进制的形式保存的，所以使用wb模式就好了，这在今天的课后作业我们会用到。

这里再顺便补充一个用法，为了避免打开文件后忘记关闭，占用资源或当不能确定关闭文件的恰当时机的时候，我们可以用到关键字with，之前的例子可以写成这样：

# 普通写法
file1 = open('abc.txt','a') 
file1.write('张无忌') 
file1.close()

# 使用with关键字的写法
with open('abc.txt','a') as file1:
#with open('文件地址','读写模式') as 变量名:
    #格式：冒号不能丢
    file1.write('张无忌') 
    #格式：对文件的操作要缩进
    #格式：无需用close()关闭

所以之后当你看到with open...as这种打开文件的语法格式也要淡定，这种还挺常见的。

正所谓“光看不写，学这Python有何用”，接下来，我们还是一起写写代码噢 (p≧w≦q)！

m0_73505947

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
文件的读写

它是一种针对Unicode的可变长度字符编码，它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度，而当字符在ASCII码的范围时，就用一个字节表示，所以UTF-8还可以兼容ASCII编码。把最后一个比特位也编进来吧。16进制是用0，1，2，3，4，5，6，7，8，9，a，b，c，d，e，f来表示。此外，用decode()解码的时候则要注意，UTF-8编码的字节就一定要用UTF-8的规则解码，其他编码同理，否则就会出现乱码或者报错的情况，现在请你将下列字节解码成UTF-8的形式，打印出来。
复制链接

扫一扫