文件操作(IO 技术)笔记

文本文件和二进制文件

按文件中数据组织形式,我们把文件分为文本文件和二进制文件两大类。

  1. 文本文件
    文本文件存储的是普通“字符”文本,python 默认为 unicode 字符集(两个字节表示一个字符,最多可以表示:65536 个),可以使用记事本程序打开。但是,像 word 软件 编辑的文档不是文本文件。
  2. 二进制文件
    二进制文件把数据内容用“字节”进行存储,无法用记事本打开。必须使用专用的软件 解码。常见的有:MP4 视频文件、MP3 音频文件、JPG 图片、doc 文档等等。

文件操作相关模块概述

名称说明
io模块文件流的输入和输出操作 input output
os模块基本操作系统功能,包括文件操作
glob模块查找符合特定规则的文件路径名
fnmatch 模块使用模式匹配文件路径名
fileinput 模块处理多个输入文件
filecmp 模块用于文件的比较
cvs 模块用于 csv 文件处理
pickle 和 cPickle用于序列化和反序列化
xml 包用于 XML 数据处理
bz2、gzip、zipfile、zlib、tarfile用于处理压缩和解压缩文件(分别对应不同的算法)

创建文件对象 open()

open()函数用于创建文件对象,基本语法格式如下:
open(文件名[,打开方式])
如果只是文件名,代表在当前目录下的文件。文件名可以录入全路径,比如:D:\a\b.txt。
为了减少“\”的输入,可以使用原始字符串:r“d:\b.txt”。
示例如下: f = open(r"d:\b.txt",“w”)
打开方式有如下几种:在这里插入图片描述

文本文件的写入

文本文件的写入一般就是三个步骤: 1. 创建文件对象 2. 写入数据 3. 关闭文件对象

常用编码介绍

在操作文本文件时,经常会操作中文,这时候就经常会碰到乱码问题。为了让大家有能力解决中文乱码问题,这里简单介绍一下各种编码之间的关系。
常用编码之间的关系如下:
在这里插入图片描述

ASCII

全称为 American Standard Code for Information Interchange,美国信息交换标准代码,这是世界上最早最通用的单字节编码系统,主要用来显示现代英语及其他西欧语言。 ASCII 码用 7 位表示,只能表示 128 个字符。只定义了 27=128 个字符,用 7bit 即可完全编码,而一字节 8bit 的容量是 256,所以一字节 ASCII 的编码最高位总是0。 0~31 表示控制字符如回车、退格、删除等;32~126 表示打印字符即可以 通过键盘输入并且能显示出来的字符;其中 48~57 为 0 到 9 十个阿拉伯数字, 65~90 为 26 个大写英文字母,97~122 号为 26 个小写英文字母,其余为一 些标点符号、运算符号等,具体可以参考 ASCII 标准表(大家自行百度,不在此 赘述)。

ISO8859-1

ISO-8859-1 又称 Latin-1,是一个 8 位单字节字符集,它把 ASCII 的最高位也利用起来,并兼容了 ASCII,新增的空间是 128,但它并没有完全用完。 在 ASCII 编码之上又增加了西欧语言、希腊语、泰语、阿拉伯语、希伯来语 对应的文字符号,它是向下兼容 ASCII 编码

GB2312,GBK,GB18030

GB2312

GB2312 全称为信息交换用汉字编码字符集,是中国于 1980 年发布,主要用于计算机系统中的汉字处理。GB2312主要收录了6763个汉字、682个符号。
GB2312覆盖了汉字的大部分使用率,但不能处理像古汉语等特殊的罕用字, 所以后来出现了像 GBK、GB18030 这种编码
GB2312 完全兼容 ISO8859-1。

GBK

全称为 Chinese Internal Code Specification,即汉字内码扩展规范,于 1995 年制定。 它主要是扩展了 GB2312,在它的基础上又加了更多的汉字,它一共收录了 21003 个汉字

GB18030

现在最新的内码字集于 2000 年发布,并于 2001 年强制执行,包含了中国大部分少数 民族的语言字符,收录汉字数超过 70000 余个。 它主要采用单字节、双字节、四字节对字符编码,它是向下兼容 GB2312 和 GBK 的, 虽然是我国的强制使用标准,但在实际生产中很少用到,用得最多的反而是 GBK 和 GB2312

Unicode

Unicode 编码设计成了固定两个字节,所有的字符都用 16 位(2^16=65536) 表示,包括之前只占 8 位的英文字符等,所以会造成空间的浪费,UNICODE 在很长的一段时间内都没有得到推广应用。Unicode 完全重新设计,不兼容 iso8859-1,也不兼容任何其他编码。

UTF-8

对于英文字母,unicode 也需要两个字节来表示。所以 unicode 不便于传输和存储。因此而产生了 UTF 编码,UTF-8 全称是(8-bit Unicode Transformation Format)。 UTF 编码兼容 iso8859-1 编码,同时也可以用来表示所有语言的字符, 不过,UTF 编码是不定长编码,每一个字符的长度从 1-4 个字节不等。其中, 英文字母都是用一个字节表示,而汉字使用三个字节
【老鸟建议】一般项目都会使用 UTF-8。unicode 中虽然汉字是两个字节, UTF-8 中汉字是 3 个字节。但是互联网中一个网页也包含了大量的英文字母, 这些英文字母只占用 1 个字节,整体占用空间,UTF-8 仍然由于 Unicode。

中文乱码问题

windows 操作系统默认的编码是 GBK,Linux 操作系统默认的编码是 UTF-8。当我们 用 open()时,调用的是操作系统打开的文件,默认的编码是 GBK。

write()/writelines()写入数据

write(a):把字符串 a 写入到文件中
writelines(b):把字符串列表写入文件中,不添加换行符

close()关闭文件流

由于文件底层是由操作系统控制,所以我们打开的文件对象必须显式调用 close()方法 关闭文件对象。当调用 close()方法时,首先会把缓冲区数据写入文件(也可以直接调用 flush() 方法),再关闭文件,释放文件对象。 为了确保打开的文件对象正常关闭,一般结合异常机制的 finally 或者 with 关键字实现 无论何种情况都能关闭打开的文件对象。

with 语句(上下文管理器)

with 关键字(上下文管理器)可以自动管理上下文资源,不论什么原因跳出 with 块,都能 确保文件正确的关闭,并且可以在代码块执行完毕后自动还原进入该代码块时的现场。

文本文件的读取

文件的读取一般使用如下三个方法:

  1. read([size]) 从文件中读取 size 个字符,并作为结果返回。如果没有 size 参数,则读取整个文件。 读取到文件末尾,会返回空字符串。
  2. readline() 读取一行内容作为结果返回。读取到文件末尾,会返回空字符串。
  3. readlines() 文本文件中,每一行作为一个字符串存入列表中,返回该列表

二进制文件的读取和写入

二进制文件的处理流程和文本文件流程一致。首先还是要创建文件对象,不过,我们需要指 定二进制模式,从而创建出二进制文件对象。

文件对象的常用属性和方法

文件对象的属性

在这里插入图片描述

文件对象的打开模式

在这里插入图片描述

文件对象的常用方法

在这里插入图片描述
在这里插入图片描述

使用 pickle 序列化

Python 中,一切皆对象,对象本质上就是一个“存储数据的内存块”。有时候,我们 需要将“内存块的数据”保存到硬盘上,或者通过网络传输到其他的计算机上。这时候,就 需要“对象的序列化和反序列化”。 对象的序列化机制广泛的应用在分布式、并行系统上。 序列化指的是:将对象转化成“串行化”数据形式,存储到硬盘或通过网络传输到其他 地方。反序列化是指相反的过程,将读取到的“串行化数据”转化成对象。 我们可以使用 pickle 模块中的函数,实现序列化和反序列操作。

CSV 文件的操作

csv(Comma Separated Values)是逗号分隔符文本格式,常用于数据交换、Excel 文件和数据库数据的导入和导出。与 Excel 文件不同,CSV 文件中: 值没有类型,所有值都是字符串 不能指定字体颜色等样式 不能指定单元格的宽高,不能合并单元格,没有多个工作表 不能嵌入图像图表

os 和 os.path 模块

os 模块-调用操作系统命令

os.system: 可以帮助我们直接调用系统的命令
os.startfile:直接调用可执行文件

os 模块-文件和目录操作

walk()递归遍历所有文件和目录

os.walk()方法:
返回一个 3 个元素的元组,(dirpath, dirnames, filenames),
dirpath:要列出指定目录的路径
dirnames:目录下的所有文件夹
filenames:目录下的所有文件

shutil 模块(拷贝和压缩)

shutil 模块是 python 标准库中提供的,主要用来做文件和文件夹的拷贝、移动、删除等;还可以做 文件和文件夹的压缩、解压缩操作。
os 模块提供了对目录或文件的一般操作。shutil 模块作为补充,提供了移动、复制、压缩、解压等操 作,这些 os 模块都没有提供。

递归算法

递归是一种常见的解决问题的方法,即把问题逐渐简单化。递归的基本思想就是**“自己 调用自己”**,一个使用递归技术的方法将会直接或者间接的调用自己。 利用递归可以用简单的程序来解决一些复杂的问题。比如:斐波那契数列的计算、汉诺 塔、快排等问题。 递归结构包括两个部分:
**定义递归头。**解答:什么时候不调用自身方法。如果没有头,将陷入死循环,也就 是递归的结束条件。
**递归体。**解答:什么时候需要调用自身方法。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值