我们都知道开发过程中应该编写单元测试,实际上我们中的许多人都这样做。对于生产代码,库代码,或者归因于测试驱动的开发过程,这一点尤其正确。
通常,Jupyter notebooks用于数据探究,因此用户可能不选择(或不需要)为其代码编写单元测试,因为当他们在Jupyter中运行时,通常会查看每个单元格的结果,然后得出结论,之后继续。但是,以我的经验来看,Jupyter通常会发生的情况是,Jupyter中的代码很快就超出了数据探究的范围,对于进一步的工作很有用。或者,Jupyter本身可能会产生有用的结果,需要定期运行。也许需要维护代码并将其与外部数据源集成。然后,确保可以测试和验证notebook中的代码就变得很重要。
在这种情况下,我们有哪些选择对Jupyter代码来进行单元测试?在本文中,我将介绍在Jupyter notebooks中对Python代码进行单元测试的几个选项。
也许只是不做?
Jupyter notebook 单元测试的第一个选择是根本不做。这样,我并不是说不要对代码进行单元测试,而是将其从notebook 中提取到单独的Python模块中,然后再将其重新导入notebook 中。应该使用通常对单元代码进行单元测试的方式来测试该代码,无论是使用unittest,pytest,doctest还是其他单元测试框架。本文不会详细介绍所有这些框架,但是对于python开发人员来说,一个不错的选择是不在其Jupyter notebook本中进行测试,而是使用多种可用于Python代码的测试框架,并在开发过程中尽快将代码移至外部模块。
在notebook中进行测试
如果最终决定要将代码保留在Jupyter notebook中,则实际上有一些单元测试选项。在复习其中的一些内容之前,让我们先设置一个在Jupyter notebook中可能会遇到的代码示例。假设您的notebook从API中提取了一些数据,从中计算出一些结果,然后生成了一些图表和其他数据摘要,这些摘要会一直保存在其他地方。也许有一个函数可以产生正确的API URL,我们想对该函数进行单元测试。此功能具有一些逻辑,可以根据报告的日期更改URL格式。这是经过调试的版本。
import datetime
import dateutil
def make_url(date):
"""Return the url for our API call based on date."""
if isinstance(date, str):
date = dateutil.parser.parse(date).date()
elif not isinstance(date, datetime.date):
raise ValueError("must be a date")
if date >= datetime.date(2020, 1, 1):
return f"https://api.example.com/v2/{date.year}/{date.month}/{d