----用教授的方式学习
目录
10.4.1 使用json.dump()和json.load()
10.1 从文件中读取数据
文本文件可存储的数据量多得难以置信:天气数据、交通数据、社会经济数据、文学作品等。每当需要分析或修改存储在文件中的信息时,读取文件都很有用,对数据分析应用程序来说尤其如此。例如,可以编写一个这样的程序:读取一个文本文件的内容,重新设置这些数据的格式并将其写入文件,让浏览器能够显示这些内容。
要使用文本文件中的信息,首先需要将信息读取到内存中。为此,你可以一次性读取文件的全部内容,也可以以每次一行的方式逐步读取。
10.1.1 读取整个文件
要读取文件,需要一个包含几行文本的文件。下面首先创建一个文件,它包含精确到小数点后30位的圆周率值,且在小数点后每10位处换行:
pi_digits.txt
3.1415926535 8979323846 2643383279 |
要动手尝试后续示例,可在编辑器中输入这些数据行,再将文件保存为pi_digits.txt。请将该文件保存到本章程序所在的目录。
下面的程序打开并读取这个文件,再将其内容显示到屏幕上:
file_reader.py
with open('pi_digits.txt') as file_object: |
在这个程序中,第一行代码做了大量的工作。我们先来看看函数open()。要以任何方式使用文件,那怕仅仅是打印其内容,都得先打开文件,才能访问它。函数open()接受一个参数:要打开的文件的名称。Python在当前执行的文件所在的目录中查找指定的文件。在本例中,当前运行的是file_reader.py,因此Python在file_reader.py所在的目录中查找pi_digits.txt。函数open()返回一个表示文件的对象。在这里,open('pi_digits.txt')返回一个表示文件pi_digits.txt的对象,Python将该对象赋给file_object供以后使用。
关键字with在不再需要访问文件后将其关闭。在这个程序中,注意到我们调用了open(),但没有调用close()。也可以调用open()和close()来打开和关闭文件,但这样做时,如果程序存在bug导致方法close()未执行,文件将不会关闭。这看似微不足道,但未妥善关闭文件可能导致数据丢失或受损。如果在程序中过早调用close(),你会发现需要使用文件时它已关闭(无法访问),这会导致更多的错误。并非在任何情况下都能轻松确定关闭文件的恰当时机,但通过使用前面所示的结构,可让Python去确定:你只管打开文件,并在需要时使用它,Python自会在合适的时候自动将其关闭。
10.1.2 文件路径
将类似于pi_digits.txt的简单文件名传递给函数open()时,Python将在当前执行的文件(即.py程序文件)所在的目录中查找。
根据你组织文件的方式,有时可能要打开不在程序文件所属目录中的文件。例如,你可能将程序文件存储在了文件夹python_work中,而该文件夹中有一个名为text_files的文件夹用于存储程序文件操作的文本文件。虽然文件夹text_files包含在文件夹python_work中,但仅向open()
传递位于前者中的文件名称也不可行,因为Python只在文件夹python_work中查找,而不会在其子文件夹text_files中查找。要让Python打开不与程序文件位于同一个目录中的文件,需要提供文件路径,让Python到系统的特定位置去查找。
由于文件夹text_files位于文件夹python_work中,可以使用相对文件路径来打开其中的文件。相对文件路径让Python到指定的位置去查找,而该位置是相对于当前运行的程序所在目录的。例如,可这样编写代码:
with open('text_files/filename.txt') as file_object: |
这行代码让Python到文件夹python_work下的文件夹text_files中去查找指定的.txt文件。
注意 显示文件路径时,Windows系统使用反斜杠(\)而不是斜杠(/),但在代码中依然可以使用斜杠。
还可以将文件在计算机中的准确位置告诉Python,这样就不用关心当前运行的程序存储在什么地方了。这称为绝对文件路径。在相对路径行不通时,可使用绝对路径。例如,如果text_files并不在文件夹python_work中,而在文件夹other_files中,则向open()传递路径'text_files/filename
.txt'行不通,因为Python只在文件夹python_work中查找该位置。为明确指出希望Python到哪里去查找,需要提供完整的路径。绝对路径通常比相对路径长,因此将其赋给一个变量,再将该变量传递给open()会有所帮助:
file_path = '/home/ehmatthes/other_files/text_files/_filename_.txt' |
通过使用绝对路径,可读取系统中任何地方的文件。就目前而言,最简单的做法是,要么将数据文件存储在程序文件所在的目录,要么将其存储在程序文件所在目录下的一个文件夹(如text_files)中。
注意 如果在文件路径中直接使用反斜杠,将引发错误,因为反斜杠用于对字符串中的字符进行转义。例如,对于路径"C:\path\to\file.txt",其中的\t将被解读为制表符。如果一定要使用反斜杠,可对路径中的每个反斜杠都进行转义,如"C:\\path\\to\\file.txt"。
10.1.3 逐行读取
读取文件时,常常需要检查其中的每一行:可能要在文件中查找特定的信息,或者要以某种方式修改文件中的文本。例如,你可能要遍历一个包含天气数据的文件,并使用天气描述中包含sunny字样的行。在新闻报道中,你可能会查找包含标签在新闻报道中,你可能会查找包含标签<headline>的行,并按特定的格式设置它。
要以每次一行的方式检查文件,可对文件对象使用for循环:
file_reader.py
filename = 'pi_digits.txt' with open(filename) as file_object: |
要消除这些多余的空白行,可在函数调用print()中使用rstrip():
filename = 'pi_digits.txt' with open(filename) as file_object: |
10.1.4 创建一个包含文件各行内容的列表
使用关键字with时,open()返回的文件对象只在with代码块内可用。如果要在with代码块外访问文件的内容,可在with代码块内将文件的各行存储在一个列表中,并在with代码块外使用该列表:可以立即处理文件的各个部分,也可以推迟到程序后面再处理。
下面的示例在with代码块中将文件pi_digits.txt的各行存储在一个列表中,再在with
代码块外打印:
filename = 'pi_digits.txt' with open(filename) as file_object: for line in lines: |
10.1.5 使用文件的内容
将文件读取到内存中后,就能以任何方式使用这些数据了。下面以简单的方式使用圆周率的值。首先,创建一个字符串,它包含文件中存储的所有数字,且没有任何空格:
pi_string.py
filename = 'pi_digits.txt' with open(filename) as file_object: pi_string = '' print(pi_string) print(len(pi_string)) |
变量pi_string指向的字符串包含原来位于每行左边的空格,为删除这些空格,可使用strip()而非rstrip():
--snip-- print(pi_string) |
10.1.6 包含一百万位的大型文件
前面分析的都是一个只有三行的文本文件,但这些代码示例也可处理大得多的文件。如果我们有一个文本文件,其中包含精确到小数点后1 000 000位而不是30位的圆周率值,也可创建一个包含所有这些数字的字符串。为此,无须对前面的程序做任何修改,只要将这个文件传递给它即可。在这里,只打印到小数点后50位,以免终端为显示全部1 000 000位而不断滚动:
pi_string.py
filename = 'pi_million_digits.txt' with open(filename) as file_object: pi_string = '' print(f"{pi_string[:52]}...") |
10.2 写入文件
保存数据的最简单的方式之一是将其写入文件中。通过将输出写入文件,即便关闭包含程序输出的终端窗口,这些输出也依然存在:可以在程序结束运行后查看这些输出,可以与别人分享输出文件,还可以编写程序来将这些输出读取到内存中并进行处理。
10.2.1 写入空文件
要将文本写入文件,你在调用open()时需要提供另一个实参,告诉Python你要写入打开的文件。为明白其中的工作原理,我们来将一条简单的消息存储到文件中,而不是将其打印到屏幕上:
write_message.py
filename = 'programming.txt' |
10.2.2 写入多行
函数write()不会在写入的文本末尾添加换行符,因此如果写入多行时没有指定换行符,文件看起来可能不是你希望的那样:
filename = 'programming.txt' with open(filename, 'w') as file_object: |
要让每个字符串都单独占一行,需要在方法调用write()中包含换行符:
filename = 'programming.txt' with open(filename, 'w') as file_object: |
10.2.3 附加到文件
如果要给文件添加内容,而不是覆盖原有的内容,可以以附加模式打开文件。以附加模式打开文件时,Python不会在返回文件对象前清空文件的内容,而是将写入文件的行添加到文件末尾。如果指定的文件不存在,Python将为你创建一个空文件。
下面来修改write_message.py,在既有文件programming.txt中再添加一些你酷爱编程的原因:
write_message.py
filename = 'programming.txt' with open(filename, 'a') as file_object: |
10.3 异常
Python使用称为异常的特殊对象来管理程序执行期间发生的错误。每当发生让Python不知所措的错误时,它都会创建一个异常对象。如果你编写了处理该异常的代码,程序将继续运行;如果未对异常进行处理,程序将停止并显示traceback,其中包含有关异常的报告。
异常是使用try-except代码块处理的。try-except代码块让Python执行指定的操作,同时告诉Python发生异常时怎么办。使用try-except代码块时,即便出现异常,程序也将继续运行:显示你编写的友好的错误消息,而不是令用户迷惑的traceback。
10.3.1 处理ZeroDivisionError异常
下面来看一种导致Python引发异常的简单错误。你可能知道,不能用数除以0,但还是让Python这样做:
division_calculator.py
print(5/0) |
10.3.2 使用try-except代码块
当你认为可能会发生错误时,可编写一个try-except代码块来处理可能引发的异常。你让Python尝试运行一些代码,并告诉它如果这些代码引发了指定的异常该怎么办。
处理ZeroDivisionError异常的try-except代码块类似于下面这样:
try: print(5/0) except ZeroDivisionError: |
将导致错误的代码行print(5/0)放在一个try代码块中。如果try代码块中的代码运行起来没有问题,Python将跳过except代码块;如果try代码块中的代码导致了错误,Python将查找与之匹配的except代码块并运行其中的代码。
10.3.3 使用异常避免崩溃
发生错误时,如果程序还有工作尚未完成,妥善地处理错误就尤其重要。这种情况经常会出现在要求用户提供输入的程序中;如果程序能够妥善地处理无效输入,就能再提示用户提供有效输入,而不至于崩溃。
下面来创建一个只执行除法运算的简单计算器:
division_calculator.py
print("Give me two numbers, and I'll divide them.") while True: |
10.3.4 else代码块
通过将可能引发错误的代码放在try-except代码块中,可提高程序抵御错误的能力。错误是执行除法运算的代码行导致的,因此需要将它放到try-except代码块中。这个示例还包含一个else代码块。依赖try代码块成功执行的代码都应放到else代码块中:
--snip-- |
except代码块告诉Python,出现ZeroDivisionError异常时该如何办(见❷)。如果try代码块因除零错误而失败,就打印一条友好的消息,告诉用户如何避免这种错误。
10.3.5 处理FileNotFoundError异常
使用文件时,一种常见的问题是找不到文件:查找的文件可能在其他地方,文件名可能不正确,或者这个文件根本就不存在。对于所有这些情形,都可使用try-except
代码块以直观的方式处理。
我们来尝试读取一个不存在的文件。下面的程序尝试读取文件alice.txt的内容,但该文件没有存储在alice.py所在的目录中:
alice.py
filename = 'alice.txt' with open(filename, encoding='utf-8') as f: |
要处理这个错误,必须将try语句放在包含open()的代码行之前:
filename = 'alice.txt' try: |
10.3.6 分析文本
你可以分析包含整本书的文本文件。很多经典文学作品都是简单以文本文件的形式提供的,因为它们不受版权限制。本节使用的文本来自古登堡计划,该计划提供了一系列不受版权限制的文学作品。如果你要在编程项目中使用文学文本,这是一个很不错的资源。
下面来提取童话《爱丽丝漫游奇境记》(Alice in Wonderland)的文本,并尝试计算它包含多少个单词。我们将使用方法split(),它能根据一个字符串创建一个单词列表。下面是对只包含童话名"Alice in Wonderland"的字符串调用方法split()的结果:
>>> title = "Alice in Wonderland" |
方法split()以空格为分隔符将字符串分拆成多个部分,并将这些部分都存储到一个列表中。结果是一个包含字符串中所有单词的列表,虽然有些单词可能包含标点。为计算《爱丽丝漫游奇境记》包含多少个单词,我们将对整篇小说调用split(),再计算得到的列表包含多少个元素,从而确定整篇童话大致包含多少个单词:
filename = 'alice.txt' try: |
10.3.7 使用多个文件
下面多分析几本书。这此之前,先将这个程序的大部分代码移到一个名为count_words()的函数中。这样,对多本书进行分析时将更容易:
word_count.py
def count_words(filename): filename = 'alice.txt' |
10.3.8 静默失败
在前一个示例中,我们告诉用户有一个文件找不到。但并非每次捕获到异常都需要告诉用户,有时候你希望程序在发生异常时保持静默,就像什么都没有发生一样继续运行。要让程序静默失败,可像通常那样编写try代码块,但在except代码块中明确地告诉Python什么都不要做。Python有一个pass语句,可用于让Python在代码块中什么都不要做:
def count_words(filename): filenames = ['alice.txt', 'siddhartha.txt', 'moby_dick.txt', 'little_women.txt'] |
10.3.9 决定报告哪些错误
该在什么情况下向用户报告错误?又该在什么情况下静默失败呢?如果用户知道要分析哪些文件,他们可能希望在有文件却没有分析时出现一条消息来告可能希望在有文件却没有分析时出现一条消息来告知原因。如果用户只想看到结果,并不知道要分析哪些文件,可能就无须在有些文件不存在时告知他们。向用户显示他不想看到的信息可能会降低程序的可用性。Python的错误处理结构让你能够细致地控制与用户分享错误信息的程度,要分享多少信息由你决定。
编写得很好且经过详尽测试的代码不容易出现内部错误,如语法或逻辑错误,但只要程序依赖于外部因素,如用户输入、存在指定的文件、有网络链接,就有可能出现异常。凭借经验可判断该在程序的什么地方包含异常处理块,以及出现错误时该向用户提供多少相关的信息。
10.4 存储数据
很多程序都要求用户输入某种信息,如让用户存储游戏首选项或提供要可视化的数据。不管关注点是什么,程序都把用户提供的信息存储在列表和字典等数据结构中。用户关闭程序时,几乎总是要保存他们提供的信息。一种简单的方式是使用模块json来存储数据。
模块json让你能够将简单的Python数据结构转储到文件中,并在程序再次运行时加载该文件中的数据。你还可以使用json在Python程序之间分享数据。更重要的是,JSON数据格式并非Python专用的,这让你能够将以JSON格式存储的数据与使用其他编程语言的人分享。这是一种轻便而有用的格式,也易于学习。
注意 JSON(JavaScript Object Notation)格式最初是为JavaScript开发的,但随后成了一种常见格式,被包括Python在内的众多语言采用。
10.4.1 使用json.dump()和json.load()
我们来编写一个存储一组数的简短程序,再编写一个将这些数读取到内存中的程序。第一个程序将使用json.dump()来存储这组数,而第二个程序将使用json.load()。
函数json.dump()接受两个实参:要存储的数据,以及可用于存储数据的文件对象。下面演示了如何使用json.dump()来存储数字列表:
number_writer.py
import json numbers = [2, 3, 5, 7, 11, 13] filename = 'numbers.json' |
下面再编写一个程序,使用json.load()将列表读取到内存中:
number_reader.py
import json filename = 'numbers.json' print(numbers) |
10.4.2 保存和读取用户生成的数据
使用json保存用户生成的数据大有裨益,因为如果不以某种方式存储,用户的信息会在程序停止运行时丢失。下面来看一个这样的例子:提示用户首次运行程序时输入自己的名字,并在再次运行程序时记住他。
先来存储用户的名字:
remember_me.py
import json username = input("What is your name? ") filename = 'username.json' |
现在再编写一个程序,向已存储了名字的用户发出问候:
greet_user.py
import json filename = 'username.json' with open(filename) as f: |
需要将这两个程序合并到一个程序(remember_me.py)中。这个程序运行时,将尝试从文件username.json中获取用户名。因此,首先编写一个尝试恢复用户名的try代码块。如果这个文件不存在,就在except代码块中提示用户输入用户名,并将其存储到username.json中,以便程序再次运行时能够获取:
remember_me.py
import json |
10.4.3 重构
你经常会遇到这样的情况:代码能够正确地运行,但通过将其划分为一系列完成具体工作的函数,还可以改进。这样的过程称为重构。重构让代码更清晰、更易于理解、更容易扩展。
要重构remember_me.py,可将其大部分逻辑放到一个或多个函数中。remember_me.py的重点是问候用户,因此将其所有代码都放到一个名为greet_user()的函数中:
remember_me.py
mport json greet_user() |
下面来重构greet_user(),减少其任务。为此,首先将获取已存储用户名的代码移到另一个函数中:
import json def get_stored_username(): def greet_user(): greet_user() |
还需要重构greet_user()中的另一个代码块,将没有存储用户名时提示用户输入的代码放在一个独立的函数中:
import json def get_stored_username(): def get_new_username(): def greet_user(): print(f"We'll remember you when you come back, {username}!") greet_user() |
在remember_me.py的这个最终版本中,每个函数都执行单一而清晰的任务。我们调用greet_user(),它打印一条合适的消息:要么欢迎老用户回来,要么问候新用户。为此,它首先调用get_stored_username(),该函数只负责获取已存储的用户名(如果存储了的话)。最后在必要时调用get_new_username(),该函数只负责获取并存储新用户的用户名。要编写出清晰而易于维护和扩展的代码,这种划分必不可少。
----end