为什么选择 DVC?
即使我们今天在机器学习方面取得了巨大的成功,特别是在深度学习及其在商业中的应用方面;但是,数据科学家仍然缺乏组织项目和有效协作的最佳实践。 这是一个关键挑战:虽然 ML 算法和方法不再是部落知识,但它们仍然难以实现、重用和管理。
DVC 的基本用途
如果您存储和处理数据文件或数据集以生成其他数据或机器学习模型,并且您希望:
- 以与获取代码相同的方式跟踪和保存数据和机器学习模型;
- 轻松创建和切换数据版本和 ML 模型;
- 从一开始就了解数据集和 ML 制品是如何构建的;
- 比较实验之间的模型指标;
- 在数据科学项目中采用工程化工具和最佳实践;
那么,DVC 为你而生!
使用案例
下面提供了有关 DVC 可以帮助或改进常见数据科学场景的短文。但是,提供的案例不是像教程那样为了端到端运行而编写的。
- DVC 使用案例(一):数据与模型版本管理
- DVC 使用案例(二):共享数据与模型文件
- DVC 使用案例(三):机器学习持续集成与持续交互( CI/CD )
- DVC 使用案例(四):快速且安全的数据缓存仓库
- DVC 使用案例(五):机器学习实验跟踪
- DVC 使用案例(六):数据注册表
快速入门
有关 DVC 的更一般的实践操作,请参阅“快速入门”。
- 快速入门DVC(一):简介
- 快速入门DVC(二):安装及ML项目初始化
- 快速入门DVC(三):数据与模型版本管理
- 快速入门DVC(四):下载数据与模型文件
- 快速入门DVC(五):数据流水线(Pipelines)
- 快速入门DVC(六):指标跟踪、更新训练参数以及可视化模型表现
- 快速入门DVC(七):机器学习实验管理
用户指南
关于 DVC 详细的介绍,请参阅”使用指南“。使用指南全面描述了DVC中的主要概念及其工作原理,解释了何时以及如何使用什么,以及它们之间的相互关系。这里的主题涉及到从更基础的(影响 DVC 的许多部分)到您可以做的更具体、更高级的事情。