文 / Ben Mathes 和 Neoklis Polyzotis,代表 TFX 团队发布
在编写代码时,您需要追踪代码进行追踪版本控制。那么 ML 的版本控制是什么?如果您正在构建生产 ML 系统,您需要能够回答如下问题:
-
模型是基于哪个数据集进行训练的?
-
使用了哪些超参数?
-
创建此模型时,使用了哪个流水线?
-
创建此模型时,使用了哪个版本的 TensorFlow(和其他库)?
-
是什么导致了此模型失败?
-
上次部署的模型版本是什么?
Google 工程师从多年来之不易的经验中得出,ML 工件的历史与继承关系要远比简单的线性日志复杂。您可以使用 Git(或类似工具)追踪代码;您还需要使用一些工具来追踪模型、数据集等。虽然 Git 可以在很大程度上简化一些工作,但归根结底,您仍需要一个包含了许多内容的图表!由于 ML 代码和工件(如模型、数据集等)的复杂性,您需要采用一种类似的方法。
-
包含了许多内容的图表!