实例分析
现在我们已经看了一个 Jupyter Notebook,是时候看看它们在实践中使用了,这应该会让你更清楚地了解它们为什么那么受欢迎。现在是时候开始使用前面提到的财富 500 数据集了。请记住,我们的目标是了解美国最大公司的利润在历史上是如何变化的。
值得注意的是,每个人都会有自己的喜好和风格,但是一般原则仍然适用,如果你愿意,你可以在自己的 notebook 上跟随这一段,这也给了你自由发挥空间。
命名你的 notebook
在开始编写项目之前,你可能想要给它一个有意义的名称。也许有点让人困惑,你不能从 Notebook 的应用程序中命名或重命名你的 notebook,而必须使用仪表盘或你的文件浏览器来重命名 .ipynb
文件。我们将返回到仪表板,以重命名你之前创建的文件,它将有默认的 notebook 的文件名是 Untitled.ipynb
。
你不能在 notebook 运行时重命名它,所以你首先要关闭它。最简单的方法就是从 notebook 菜单中选择 “File > Close and Halt”。但是,您也可以通过在笔记本应用程序内 “Kernel > Shutdown” 或在仪表板中选择 notebook 并点击 “Shutdown” (见下图)来关闭内核。
然后你可以选择你的 notebook,并在仪表板控件中点击 “Rename”。
注意,在你的浏览器中关闭笔记的标签页将不会像在传统的应用程序中关闭文档的方式一样关闭你的 notebook。notebook 的内核将继续在后台运行,需要在真正“关闭”之前停止运行 —— 不过如果你不小心关掉了你的标签或浏览器,这就很方便了!如果内核被关闭,你可以关闭该选项卡,而不用担心它是否还在运行。
如果你给你的 notebook 起了名字,打开它,我们就可以开始实践了。
设置
通常一开始就使用一个专门用于导入和设置的代码单元,因此如果你选择添加或更改任何内容,你可以简单地编辑和重新运行该单元,而不会产生任何副作用。
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style="darkgrid")
我们导入 pandas 来处理我们的数据,Matplotlib 绘制图表,Seaborn 使我们的图表更美。导入 NumPy 也是很常见的,但是在这种情况下,虽然我们使用的是 pandas,但我们不需要显式地使用它。第一行不是 Python 命令,而是使用一种叫做行魔法的东西来指示 Jupyter 捕获 Matplotlib 图并在单元输出中呈现它们;这是超出本文范围的一系列高级特性之一。
让我们来加载数据。
df = pd.read_csv('fortune500.csv')
在单个单元格中这样做也是明智的,因为我们需要在任何时候重新加载它。
保存和检查点
现在我们已经开始了,最好的做法是定期存储。按 Ctrl + S
键可以通过调用“保存和检查点”命令来保存你的 notebook,但是这个检查点又是什么呢?
每当你创建一个新的 notebook 时,都会创建一个检查点文件以及你的 notebook 文件;它将位于你保存位置的隐藏子目录中称作 .ipynb_checkpoints
,也是一个 .ipynb
文件。默认情况下,Jupyter 将每隔 120 秒自动保存你的 notebook,而不会改变你的主 notebook 文件。当你“保存和检查点”时,notebook 和检查点文件都将被更新。因此,检查点使你能够在发生意外事件时恢复未保存的工作。你可以通过 “File > Revert to Checkpoint“ 从菜单恢复到检查点。