第七章 文件和数据格式化

第七章 文件和数据格式化

7.1 文件的使用

文件时存储在辅助存储器上的一组数据序列,可以包含任何数据内容。概念上,文件是数据的集合和抽象。文件包括文本文件和二进制文件两种类型。

7.1.1 文件的类型

文本文件一般由单一特定编码的字符组成,如UTF-8编码,内容容易统一展示和阅读。

二进制文件直接由比特0和比特1组成,没有统一的字符编码,文本内部数据的组织格式与文件用途有关。二进制是信息按照非字符但有特定格式形成的文件,例如png格式的图片文件、avi格式的视频文件。

二进制文件和文本文件最主要的区别在于是否有统一的字符编码。

无论文件创建为文本文件或者二进制文件,都可以用“文本文件方式”和“二进制文件方式”打开,但打开后的操作不同。

# 一个文本文件,其内容为“计算机等级考试”,采用文本方式打开
# 注意:文本文件与Python程序文件放在同一个目录下
file = open("1.txt", mode="rt", encoding="UTF-8")
read_content = file.readline()
print(read_content)
file.close()

# 运行结果
计算机等级考试

# 一个文本文件,其内容为“计算机等级考试”,采用二进制方式打开
file = open("1.txt", mode="rb")
read_content = file.readline()
print(read_content)
file.close()

# 运行结果
b'\xe8\xae\xa1\xe7\xae\x97\xe6\x9c\xba\xe7\xad\x89\xe7\xba\xa7\xe8\x80\x83\xe8\xaf\x95'

采用文本方式读入文件,文件经过编码形成字符串,打印出有含义的字符;采用二进制方式打开文件,文件被解析为字节流。由于存在编码,字符串中的一个字符由多个字节表示。

7.1.2 文件的打开和关闭

Python对文本文件和二进制文件采用统一的操作步骤,即”打开—操作—关闭“,如下图所示。操作系统中的文件默认处于存储状态,首先需要将其打开,使得当前程序有权操作这个文件,打开不存在的文件系统可以创建这个文件。打开后的文件处于占用状态,此时,另一个进程不能操作这个文件。可以同做一组方式读取文件的内容或向文件写入内容,操作之后需要将文件关闭,关闭将释放对文件的控制是文件恢复或存储状态,此时,另一个进程能够操作文件。

在这里插入图片描述

Python通过open()函数打开一个文件,并返回一个操作这个文件的变量,语法格式如下:

<变量名> = open(<文件路径及文件名>,<打开模式>)

open()函数提供7种基本的打开模式:

打开模式 含义
r 只读模式,如果文件不存在,返回异常FileNotFoundError,默认值
w 覆盖写模式,文件不存在则创建,存在则完全覆盖原文件
x 创建写模式,文件不存在则创建,存在则返回异常FileExistsError
a 追加写模式,文件不存在则创建,存在则在原文件最后追加内容
b 二进制文件模式
t 文本文件模式,默认值
+ 与/r/w/x/a一同使用,在原功能基础上增加同时读写功能

打开模式使用字符串方式表示,根据字符串定义,单引号或者双引号均可。上述打开模式中,‘x’、‘w’、‘x’、‘a’可以和‘b’、‘t’、‘+’组合使用,形成既表达读写又表达文件模式的方式。

打开文件有一些常用组合,使用方式如下:

# 以文本方式只读打开一个文件,读入后不能对文件进行修改
<变量名> = open(<文件名>, 'r')<变量名> = open(<文件名>)

# 以文本方式可读写的打开一个文件,可以读入并修改文件
<变量名> = open(<文件名>, 'r+')

# 以文本方式打开一个空文件,准备写入一批内容,并保存为新文件
<变量名> = open(<文件名>, 'w')

# 以文本方式打开一个空文件或已有的文件,追加形式写入一批内容,更新原文件
<变量名> = open(<文件名>, 'a+')

# 以二进制方式只读打开一个文件,读入后不能对文件进行修改
<变量名> = open(<文件名>, 'rb')

文件试用结束后要用close()方法关闭,释放文件的使用授权,语法格式如下:

<变量名>.close()
7.1.3 文件的读写

根据打开方式不同,文件读写也会根据文本文件或二进制打开方式有所不同。

常用的文件读取方法如下:

方法 含义
f.read(size=-1) 从文件中读入整个文件内容,参数可选。如果给出,读入前size长度的字符串或字节流
f.readline(size=-1) 从文件中读入一行内容,参数可选。如果给出,读入该行size长度的字符串或字节流
f.readlines(hint=-1) 从文件中读入所有行,以每行为元素形成一个列表。参数可选,如果给出,读入hint行
f.seek(offset) 改变当前文件操作指针的为啥,offset的值:0为文件开头,2为文件结尾

从文本文件逐行读入内容并进行处理是一个基本的文件操作需求。文本文件可以看成是由行组成的组合类型,因此,可以使用遍历循环逐行遍历文件,语法格式如下:

file = open(<文件路径及名称>, "r")
for line in file:
	print(line)	# 处理一行数据 
f.close

常用的文件写入方法如下:

方法 含义
f.write(s) 向文件写入一个字符串或字节流
f.writelines(lines) 将一个元素为字符串的列表整体写入文件

f.write(s)向文件写入字符串s,每次写入后,将会记录一个写入指针。放方法可以反复调用,再写入指针后分批写入内容,直至文件被关闭。

使用f.write(s)时,要显示的使用’\n’对写入文本进行分行,如果不进行分行,每次写入的字符串会被连接起来。

f = open("c.txt", "w")
f.write('新年都未有芳华\n')
f.write('二月初惊见草芽\n')
f.write('白雪却嫌春色晚\n')
f.write('故穿庭树作飞花\n')
f.close()

f.writelines(lines)直接将列表类型的个元素连接起来写入文件f

ls = ['新年都未有芳华\n','二月初惊见草芽\n','白雪却嫌春色晚\n','故穿庭树作飞花\n']
f = open("c.txt", "w")
f.writelines(ls)
f.close()

上述代码运行结果皆为:

新年都未有芳华
二月初惊见草芽
白雪却嫌春色晚
故穿庭树作飞花
7.2 数据组织的维度

一组数据在被计算机处理前需要进行一定的组织,表面数据之间的基本关系,进而形成”数据的维度“。根据数据的关系不同,数据组织可以分为:一维数据、二维数据和高维数据

7.2.1 一维数据

一维数据由对等关系的有序或无需数据构成,采用线性方式组织,对应于数学中数组的概念。例如:中国的直辖市列表即可表示为一维数据,一维数据具有线性特点。

7.2.2 二维数据

二维数据,也称表格数据,有关联关系数据构成,采用二维表格方式组织,对应于数学中的矩阵,常见的表格都属于二维数据。例如:国家统计局发布的居民消费价格指数是二维数据。

7.2.3 高维数据

高维数据由键值对类型的数据构成,采用对象方式组织,可以多层嵌套。

高维数据在Web系统中十分常用,作为当今Internet组织内容的主要方式,高维数据衍生出HTML、XML、JSON等具体数据组织的语法结构。

7.3 一维数据的处理
7.3.1 一维数据的表示

一维数据是最简单的数据组织类型,由于是线性结构,在Python语言中主要采用列表形式表示。

一维数据的文件存储有多种方式,总体思路是采用特殊字符分隔各数据。采用存储方法包括4种:

(1)采用空格分隔元素,例如:

北京	上海	天津	重庆

(2)采用逗号分隔元素,例如:

北京,上海,天津,重庆

(3)采用换行分隔元素,例如:

北京
上海
天津
重庆

(4)其他特殊符号分隔,以分号分隔为例,例如:

北京;上海;天津;重庆
7.3.2 一维数据的存储

逗号分隔的存储格式叫做CSV格式(Comma-Separated Values,即逗号分隔值),它是一种通用的、相对简单的文件格式,在商业和科学上广泛应用,大部分编辑器都支持直接读入或保存文件为CSV格式。

一维数据保存成CSV格式后,各元素采用逗号分隔,形成一行。从Python表示到数据存储,需要将列表输出为CSV格式以及将CSV格式读入成列表对象。

列表对象输出为CSV格式文件方法如下,采用字符串的join()方法最为方便:

ls = ["北京", "上海", "天津", "重庆"]
file = open("city.csv", mode="w"
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

liebe1*1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值