
在科学上,再现的定义是"当一个实验重复时所获得的一致结果的程度"。数据是可以更改的,特别是数据库中保存的数据。此外,数据科学很大程度上是基于随机抽样、概率和实验的。因此,在这个领域中,模型的结果和输出可以由同事或你自己在将来的某个时间点复制,生成分析和构建这种模型是非常具有挑战性的。
尽管获取数据比较困难,但是有很多原因可以解释为什么再现性对于好的数据科学来说是至关重要的。
-
再现性支持合作。数据科学项目很少是单独进行的。在大多数情况下,数据科学家与其他数据科学家和其他团队一起工作,查看项目的全过程,并将其集成到业务流程中。为了有效地协作,其他人能够重复、构建和维护你的工作是很重要的。
-
再现性也支持效率。为了能够最有效地工作,你和你的同事能够在你所完成的工作的基础上继续努力是很重要的。如果结果或过程不能精确地重复,那么就很难在现有工作的基础上进行开发,相反,你将发现必须重新开始一个项目。
-
再现性构建信任。如前所述,数据科学是一门建立在概率和实验基础上的学科。在这个领域中,对结果的信任是非常重要的,这样才能开发项目的买进,并与其他团队有效地合作。
在下一篇文章中,我将分享5个工具,以促进数据科学的再现性。这些工具提供的函数,以解决特定的挑战,创建可复制的数据科学项目,这些包括:
- 记录项目中使用的工具、库和版本。
- 为数据科学项目创建自包含的、一致的环境。
- 开发一致的、易于阅读的文件结构。
- 为代码编写测试。
- 使用版本控制。
Watermark
Watermark是一个IPython神奇的扩展,它可以在任何IPython Shell或Jupyter笔记本会话中打印有关软件版本、硬件、日期和时间的信息。
Watermark提供了一种非常快速和简单的方法来跟踪项目中涉及的工具、库、版本、作者和日期。它特别适用于临时或一次性的工作,而不是只在笔记本上进行的大型项目。这意味着,如果一个同事想要重复一项工作,他们就会对需要安装的工具和库有一个很好的概念,知道谁创建了这项工作,以及何时将它放在一起。
要安装Watermark运行下列在你的终端。
pip install watermark
要在Jupyter笔记本或IPython shell中使用扩展,请运行以下命令。
% load_extWatermark
你可以通过指定许多标志来选择打印的信息。可用标志的完整列表在文档中列出。但是下面的代码打印了当前日期、我使用的python和IPython的版本、我安装和导入的库的版本以及关于我使用的硬件的信息。输出如下面的代码所示。
%watermark -d -m -v -p numpy,matplotlib,sklearn,seaborn,pandas

本文介绍了数据科学中提高再现性的五个关键工具:Watermark用于记录软件版本和时间戳,Pipenv创建可重复的项目环境,Cookiecutter提供标准的项目结构,Pytest支持单元测试,而Github则实现版本控制和协作。这些工具帮助数据科学家实现协作、提高效率并建立信任。
最低0.47元/天 解锁文章
4246

被折叠的 条评论
为什么被折叠?



