数据版本管理的目的
每个模型的在训练的时候,所使用的训练数据/测试数据都有可能是变化的,在进行复现实验结果的时候,除了使用同样的代码,config,使用同样的数据也是非常重要的。
如下图,如果要人工记录数据版本以及模型版本,使之匹配是比较麻烦的,因此,数据版本管理是十分必要的。
一、简介
DVC 可以轻松地将数据存储在许多存储系统上,像本地磁盘、SSH 服务器或云系统(S3、GCP 等)。DVC 管理的数据可以很容易地与其他使用此存储系统的用户共享。
The easiest (but not perfect!) analogy to describe it: DVC is Git (or Git-LFS to be precise) & Makefiles made right and tailored specifically for ML and Data Science scenarios.
- DVC和git结合,对数据、模型、代码进行版本管理。
- 安装简单,pip install dvc
- 使用方便,dvc push; dev pull等
- 速度快,在dvc add之后,会生成一个新的文件,如,dvc add data.sql,会生成data.sq