新建文件夹 : basic
在文件夹中打开terminal,初始化git
git init
安装
pip install dvc
初始化dvc
dvc init
新建文件夹data
mkdir data
从dvc官方github获取demo数据源头,获取方式是通过http
dvc get https://github.com/iterative/dataset-registry \
get-started/data.xml -o data/data.xml
查看是否已经获取demo数据
ls -lh data
使用dvc来管控demo数据
dvc add data/data.xml
使用git来管控dvc的版本指向文件
git add data/.gitignore data/data.xml.dvc
使用git记录和提交本次操作
git commit -m "Add raw data"
查看dvc版本指向文件的内容
outs:
- md5: a304afb96060aad90176268345e10355
path: data.xml```
这里使用上传至公司服务器器为例子
建立远程连接
dvc remote add -d -f storage ssh://172.20.8.10/home/hairou/algorithm-dvc
dvc remote modify storage user hairou
dvc remote modify storage port 22
dvc remote modify storage password hairou
然后上传指向文件
dvc push
当把数据文件删除之后,依旧可以从服务器端获取
dvc pull
假设我们的数据文件发生了改变,要如何处理,比如往里添加内容
vim data/data.xml
用dvc来管控文件的变化
dvc add data/data.xml
git add 'data\data.xml.dvc'
同时也要用git来管控变化的 .dvc 文件
git add data/data.xml.dvc
git commit -m "Dataset updates"
都管理好变化之后,将有变动的文件上传至服务器来管理
dvc push
如果想要回到上一个版本的数据源,也可以用常规的git命令
git checkout HEAD^1 data/data.xml.dvc
注意!git 跟踪管理的不是数据文件,而是数据文件的映射文件 .dvc
git checkout 完了之后,还得
dev checkout
因为已经回退到上一个版本了,所以要记录一下这个操作
git commit data/data.xml.dvc -m "Revert dataset updates"
我们把刚才的启动dvc和git来管理的项目,上传到github作为一个项目