全文共1957字,预计学习时长5分钟
图源:unsplash
在软件项目工作中,立即开始对代码进行版本控制是非常常见的行为,并且实际上已经是一种标准了。它的好处对于软件社区来说已经非常明显:跟踪特定代码存储库中对代码的每一次修改。如果出现任何错误,开发人员总是可以跨越时间,比较代码的早期版本以解决问题,同时最大限度地减少对所有团队成员的干扰。
软件项目的代码是最宝贵的资产,因此必须不惜一切代价加以保护。对于数据科学项目来说,数据也可以被视为王冠上的宝石,那么为什么作为数据科学家,不通过版本控制来将其视为最宝贵的东西呢?
对于那些熟悉Git的人可能会想,Git不能处理大文件和目录,至少它不能像处理小代码文件那样具有相同的性能。那么,怎样才能像版本控制代码那样对数据进行版本控制呢?
如今这是能够实现的,而且很简单,只需输入git clone并查看保存在工作空间中的数据文件和机器学习模型文件,所有这些魔术都可以通过DVC实现。
快速上手DVC