Python基础知识(七)：文件操作【open：（文本/二进制）文件读写】【os：文件路径】【shutil：移动/拷贝/压缩】【zipfile：压缩】【csv：csv文件读写】【pickle：序列化】

u013250861

已于 2022-05-23 22:05:25 修改

阅读量408

点赞数

分类专栏： Python 文章标签： python

于 2020-10-23 19:57:46 首次发布

本文链接：https://blog.csdn.net/u013250861/article/details/109248782

版权

这篇博客详细介绍了Python的文件操作，包括文本文件和二进制文件的读写，编码知识，文件对象的创建与关闭，文本文件的读取方法，二进制文件操作，以及序列化、CSV文件处理、os模块和shutil模块的使用。还涵盖了编码问题、乱码解决方案以及递归算法在文件遍历中的应用。

摘要由CSDN通过智能技术生成

一、file文件操作、操作系统底层关系、写入文件

1、文本文件和二进制文件

按文件中数据组织形式，我们把文件分为两大类：

文本文件
二进制文件

1.1 文本文件

文本文件存储的是普通“字符”文本，python 默认为 unicode 字符集（两个字节表示一个字符，最多可以表示：65536 个），可以使用记事本程序打开。

但是，像word 软件编辑的文档不是文本文件。

1.2 二进制文件

二进制文件把数据内容用“字节”进行存储，无法用记事本打开。

必须使用专用的软件解码。常见的有：MP4 视频文件、MP3 音频文件、JPG 图片、doc 文档等等。

2、文件操作相关模块概述

Python 标准库中，如下是文件操作相关的模块：

名称	说明
io 模块	文件流的输入和输出操作input output
os 模块	基本操作系统功能，包括文件操作
glob 模块	查找符合特定规则的文件路径名
fnmatch 模块	使用模式来匹配文件路径名
fileinput 模块	处理多个输入文件
filecmp 模块	用于文件的比较
cvs 模块	用于csv 文件处理
pickle 和cPickle	用于序列化和反序列化
xml 包	用于XML 数据处理
bz2、gzip、zipfile、zlib、tarfile	用于处理压缩和解压缩文件（分别对应不同的算法）

3、创建文件对象open()

open()函数用于创建文件对象，基本语法格式如下：

open(文件名[,打开方式])

如果只是文件名，代表在当前目录下的文件。文件名可以录入全路径，比如：D:\a\b.txt。
为了减少“\”的输入，可以使用原始字符串：r“d:\b.txt”。示例如下：

f = open(r"d:\b.txt","w")

打开方式有如下几种：

模式	描述
r	读read 模式
w	写write 模式。如果文件不存在则创建；如果文件存在，则重写新内容；
a	追加append 模式。如果文件不存在则创建；如果文件存在，则在文件末尾追加内容
b	二进制binary 模式（可与其他模式组合使用）

  |	读、写模式（可与其他模式组合使用）

文本文件对象和二进制文件对象的创建：

如果我们没有增加模式“b”，则默认创建的是文本文件对象，处理的基本单元是“字符”；
如果是二进制模式“b”，则创建的是二进制文件对象，处理的基本单元是“字节”；

4、基本的文件写入操作

文本文件的写入一般就是三个步骤：

创建文件对象
写入数据
关闭文件对象

我们首先创建一个小程序，体验一下文本文件的写入操作。
【操作】文本写入操作简单测试

f = open(r"a.txt","a")
s = "itbaizhan\nsxt"
f.write(s)
f.close() # 关闭写入操作过程中打开的各种系统资源

执行结果：
在这里插入图片描述
write()/writelines()写入数据：

write(a)：把字符串a 写入到文件中
writelines(b)：把字符串列表写入文件中，不添加换行符

【操作】添加字符串列表数据到文件中

f = open(r"d:\bb.txt","w",encoding="utf-8")
s = ["琪琪\n","高老三\n","高老四\n"]
f.writelines(s)
f.close()

二、编码知识、中文乱码问题解决

1、常用编码介绍

在操作文本文件时，经常会操作中文，这时候就经常会碰到乱码问题。为了让大家有能力解决中文乱码问题，这里简单介绍一下各种编码之间的关系。
常用编码之间的关系如下：
在这里插入图片描述

2、ASCII

全称为American Standard Code for Information Interchange，美国信息交换标准代码，这是世界上最早最通用的单字节编码系统，主要用来显示现代英语及其他西欧语言。
ASCII 码用7 位表示，只能表示128 个字符。只定义了2^7=128 个字符，用7bit 即可完全编码，而一字节8bit 的容量是256，所以一字节ASCII 的编码最高位总是0。
0～31 表示控制字符如回车、退格、删除等；32～126 表示打印字符即可以通过键盘输入并且能显示出来的字符；其中48～57 为0 到9 十个阿拉伯数字，65～90 为26 个大写英文字母，97～122 号为26 个小写英文字母，其余为一些标点符号、运算符号等，具体可以参考ASCII 标准表（大家自行百度，不在此赘述）。

3、 ISO8859-1

ISO-8859-1 又称Latin-1，是一个8 位单字节字符集，它把ASCII 的最高位也利用起来，并兼容了ASCII，新增的空间是128，但它并没有完全用完。
在ASCII 编码之上又增加了西欧语言、希腊语、泰语、阿拉伯语、希伯来语对应的文字符号，它是向下兼容ASCII 编码

4、GB2312,GBK,GB18030

GB2312
GB2312 全称为信息交换用汉字编码字符集，是中国于1980 年发布，主要用于计算机系统中的汉字处理。GB2312 主要收录了6763 个汉字、682 个符号。
GB2312 覆盖了汉字的大部分使用率，但不能处理像古汉语等特殊的罕用字，所以后来出现了像GBK、GB18030 这种编码。
GB2312 完全兼容ISO8859-1。
GBK
全称为Chinese Internal Code Specification，即汉字内码扩展规范，于1995 年制定。它主要是扩展了GB2312，在它的基础上又加了更多的汉字，它一共收录了21003 个汉字
GB18030
现在最新的内码字集于2000 年发布，并于2001 年强制执行，包含了中国大部分少数民族的语言字符，收录汉字数超过70000 余个。
它主要采用单字节、双字节、四字节对字符编码，它是向下兼容GB2312 和GBK 的，虽然是我国的强制使用标准，但在实际生产中很少用到，用得最多的反而是GBK 和GB2312

5、Unicode

Unicode 编码设计成了固定两个字节，所有的字符都用16 位(2^16=65536)表示，包括之前只占8 位的英文字符等，所以会造成空间的浪费，UNICODE 在很长的一段时间内都没有得到推广应用。
Unicode 完全重新设计，不兼容iso8859-1，也不兼容任何其他编码。

6、UTF-8

对于英文字母，unicode 也需要两个字节来表示。所以unicode 不便于传输和存储。因此而产生了UTF 编码，UTF-8 全称是（8-bit UnicodeTransformation Format）。
UTF 编码兼容iso8859-1 编码，同时也可以用来表示所有语言的字符，不过，UTF 编码是不定长编码，每一个字符的长度从1-4 个字节不等。其中，英文字母都是用一个字节表示，而汉字使用三个字节。
老鸟建议：一般项目都会使用UTF-8。unicode 中虽然汉字是两个字节，UTF-8 中汉字是3 个字节。但是互联网中一个网页也包含了大量的英文字母，这些英文字母只占用1 个字节，整体占用空间，UTF-8 仍然由于Unicode。

7、中文乱码问题

windows 操作系统默认的编码是GBK，Linux 操作系统默认的编码是UTF-8。当我们用open()时，调用的是操作系统打开的文件，默认的编码是GBK。

【示例01】中文字符文件，乱码出现测试
#测试写入中文

f = open(r"b.txt","w")
f.write("学习\n 程序员\n")
f.close()

运行结果（Linux 环境中不存在这个问题）：
在这里插入图片描述
【示例02】中文字符文件，写入时选择编码为utf-8

#测试写入中文
f = open(r"b.txt","w",encoding="utf-8")
f.write("学习\n 程序员\n")
f.close()

运行结果：
在这里插入图片描述

最低0.47元/天解锁文章

u013250861

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录