全文共1688字,预计学习时长8分钟
图源:unsplash
最近与同事的一段对话让我陷入思考。公司会议上同事问我:“是否要使用某种数据版本控制?”我以为他是在说代码版本控制,但“不是,是数据版本控制”,我的同事坚持说。
我未曾听过或想过数据版本控制,是否有提供数据版本控制的产品?推出这些产品是否有必要呢?
我在谷歌上搜索到许多数据版本控制产品,但最吸引我眼球的产品是dolt。
什么是dolt?
Dolt是SQL数据库中数据体验的真正Git,为模式提供版本控制,并为数据提供单元级版本控制,这些都为了便于协作而不断优化。
使用Dolt可以查看上次接收的数据与这次接收的数据之间可读的diff区别。在部署新数据之前,可以很容易发现意外更新,并且修复问题。
作者们称这就像是数据的Git,是一个开源的SQL数据库,且带有Git样式的版本控制。在处理数据科学项目时,我们会自己将数据集版本化。很多时候并记不清v5和v6有什么区别。将代码提交到存储库时,Dolt会存储提交日志,从而易于返回并查看更改。
在哪里托管存储库?
<