windows下dvc的使用(data version control)

本文介绍了在Windows下如何使用DVC进行数据版本控制,包括初始化DVC、管理数据文件、使用git配合DVC跟踪数据变化,以及在机器学习项目中的应用。详细讲解了如何在不同场景下,如同一分支使用不同数据、不同分支使用相同或不同数据源的模拟验证。
摘要由CSDN通过智能技术生成

新建文件夹 : basic

在文件夹中打开terminal,初始化git

git init

安装

pip install dvc

初始化dvc

dvc init

新建文件夹data

mkdir data

从dvc官方github获取demo数据源头,获取方式是通过http

dvc get https://github.com/iterative/dataset-registry \
get-started/data.xml -o data/data.xml

查看是否已经获取demo数据

ls -lh data

使用dvc来管控demo数据

dvc add data/data.xml

使用git来管控dvc的版本指向文件

git add data/.gitignore data/data.xml.dvc

使用git记录和提交本次操作

 git commit -m "Add raw data"

查看dvc版本指向文件的内容

outs:
- md5: a304afb96060aad90176268345e10355
  path: data.xml```

这里使用上传至公司服务器器为例子

建立远程连接

dvc remote add -d -f storage ssh://172.20.8.10/home/hairou/algorithm-dvc

dvc remote modify storage user hairou

dvc remote modify storage port 22

dvc remote modify storage password hairou

然后上传指向文件

dvc push

当把数据文件删除之后,依旧可以从服务器端获取

dvc pull

假设我们的数据文件发生了改变,要如何处理,比如往里添加内容

vim data/data.xml

用dvc来管控文件的变化

dvc add  data/data.xml
git add 'data\data.xml.dvc'

同时也要用git来管控变化的 .dvc 文件

git add data/data.xml.dvc
git commit -m "Dataset updates"

都管理好变化之后,将有变动的文件上传至服务器来管理

dvc push

image.png

如果想要回到上一个版本的数据源,也可以用常规的git命令

git checkout HEAD^1 data/data.xml.dvc

注意!git 跟踪管理的不是数据文件,而是数据文件的映射文件 .dvc
git checkout 完了之后,还得

dev checkout

因为已经回退到上一个版本了,所以要记录一下这个操作

git commit data/data.xml.dvc -m "Revert dataset updates"

我们把刚才的启动dvc和git来管理的项目,上传到github作为一个项目

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值