在我们过去的业务实践中,相当多和客户的沟通交流都是发生在帮助客户构建Pipeline(管道)之中的。星鲸团队非常欣赏的一句机器学习界的格言:Models are temporary,pipelines are forever. 我们训练的ai模型可能随着市场的变化,业务的变化乃至人员的变化而迭代改变,更新或弃用,但整个组织构建的强健业务流 pipeline 则会影响深远。
这也就对任何有志于AI落地应用的团队和组织提出了要求,即AI上马之处,就需要考虑到整个pipeline的架构实现。
以下是我们的一些思考。
首先,任何ML pipeline的实现都取决于真实的业务需求,设计之初就需要考虑的尽可能全面。
比如你可以先问自己的团队以下问题:
- 我们的 ML pipeline是在本地、云端还是混合环境中运行?
- 我的pipeline包含哪些角色,是否要涵盖客户的需求(这里的客户可能是内部客户例如业务人员,客服,销售等,也可以是外部的客户)。
- 我们的 ML pipeline 是基于批量数据、流数据还是事件驱动进行操作?
- 我们将如何监控ML pipeline的可靠性和可重复性?
- 数据是否包含个人敏感信息?
- 数据是否包含监管需要考虑的信息?
- 我将如何设计数据权限
- ......
尽可能全面的考虑之后,构建pipeline本身却应该尽可能简单,毕竟我们还需要不断迭代。我们需要让它先跑起来,模型,数据,和代码之间先产生有效的联结,再考虑以后慢慢的迭代。
其次,在思考业务整体架构之后,有一些构建M