数据版本管理 DVC data version control 和git一起管理你的机器学习实验数据

本文介绍了数据版本管理工具DVC的用途,它与Git结合,便于管理机器学习和数据科学项目的代码、数据及模型版本。通过简单安装和教程,展示如何使用DVC进行数据和模型的push/pull操作,以及在使用过程中应注意的坑。
摘要由CSDN通过智能技术生成

数据版本管理的目的

每个模型的在训练的时候,所使用的训练数据/测试数据都有可能是变化的,在进行复现实验结果的时候,除了使用同样的代码,config,使用同样的数据也是非常重要的。

如下图,如果要人工记录数据版本以及模型版本,使之匹配是比较麻烦的,因此,数据版本管理是十分必要的。

一、简介

DVC 可以轻松地将数据存储在许多存储系统上,像本地磁盘、SSH 服务器或云系统(S3、GCP 等)。DVC 管理的数据可以很容易地与其他使用此存储系统的用户共享。

The easiest (but not perfect!) analogy to describe it: DVC is Git (or Git-LFS to be precise) & Makefiles made right and tailored specifically for ML and Data Science scenarios.

  • DVC和git结合,对数据、模型、代码进行版本管理。
  • 安装简单,pip install dvc
  • 使用方便,dvc push; dev pull等
  • 速度快,在dvc add之后,会生成一个新的文件,如,dvc add data.sql,会生成data.sq
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值