用 papermill 参数化和自动化 Jupyter

最新推荐文章于 2024-08-12 09:03:57 发布

Python中文社区

最新推荐文章于 2024-08-12 09:03:57 发布

阅读量1.1k

点赞数

文章标签：数据库 python linux java 编程语言

本文链接：https://blog.csdn.net/BF02jgtRS00XKtCx/article/details/118714173

版权

papermill是一个用于参数化和自动化Jupyter notebook的库。通过它，可以在不手动编辑notebook的情况下，通过命令行或Python API指定参数并执行notebook，生成不同结果的副本。文章介绍了如何安装papermill，基本使用方法，包括通过命令行和API传递参数，以及如何在实际工作流程中应用papermill自动化notebook执行和转换。

摘要由CSDN通过智能技术生成

你是否曾经创建过 Jupyter notebook 并希望可以使用一组不同的参数生成notebook？这样做的话你可能至少执行了以下操作之一：

•编辑单元格中的变量并重新运行notebook，根据需要保存副本。•保存了notebook的副本，并且可能修改了代码以直接在 .ipynb 文件中编辑值并重新运行notebooks•构建了一些自定义代码以使用从数据库或配置文件加载的数据设置变量，然后重新运行notebook

这个问题有一个很好的解决方案，可以将交互式笔记本参数化并与自动化作业很好地共存，这就是所谓的papermill。

动机

许多notebook用户使用在其notebook顶部附近指定一个单元格作为全局变量的标准做法。然后修改单元格中的值并运行整个notebook以获得不同的结果。为了保持输出，作者将手动下载另一种格式的notebook或将其另存为不同的notebook文件。但是仅使用notebook服务器和这些手动方法很快就会变得混乱且难以跟踪，更不用说容易出错了。你编辑的是哪个notebook？ Papermill 有助于解决这个问题。在这篇文章中，我将介绍 papermill 和基本用法，通过一个参数化的例子，最后谈谈使用 cron 完全调度和自动化 notebook 执行的方法。

对于papermill，notebook中的一个特殊单元格被指定为参数。当 papermill 通过命令行界面 (CLI) 或使用 Python API 执行参数化notebook时，参数会传入并在后续单元中执行。这允许notebook以不同的参数快速运行多次。然后可以将生成的执行后的notebook保存在各种位置，包括本地或云存储。

安装

要安装 papermill，请使用 pip。我建议使用 virtualenv 或 conda 的虚拟环境。我经常推荐使用 pyenv 来安装最新的 Python 版本并创建一个 virtualenv虚拟环境。