什么是流式推理引擎
推理引擎是将人工智能模型转化为生产力的关键部件。它衔接数据科学家、终端用户和运营商,在典型的商业场景中,运营商将数据科学家研究的人工智能模型,部署于计算平台,并引导终端用户的请求在计算平台各模型间流转,最终形成客户期望的响应,并在其终端展示。
流式推理引擎是推理引擎的一种工作形态,他将人工智能模型及相关的周边处理,以工作流的方式组织起来,对外提供更能适配客户业务需求的推理服务。
它工作的时候,数据从终端客户或设备开始,在推理引擎的驱动下,按照既定的工作流业务逻辑,在各智能和非智能处理节点间流动,最终以业务要求的形态流出平台,被客户系统消费。
需要什么样的流式推理引擎
在这个端到端的典型场景中,关联的各方对于推理引擎的特性、技术、指标等有不同的考量。
数据科学家提供基础的人工智能模型,由于人工智能技术的飞速发展,科学家们多会广泛尝试各种人工智能底层框架和第三方算法库,以期望最大限度借力技术的发展,展现自己模型的特性。对于协助其能力变现的运营商所采用的推理引擎,当然期望其对底层人工智能框架和算法库的支持有足够的灵活性,减少模型移植的代价,保持甚至提高模型的性能,并自行解决商业化场景中的工程问题。
运营商运维数据科学家的人工智能模型,服务于终端客户以实现利润最大化。他们更多会倾向于用稳定的技术、设备,用较少的硬件和人力资源,实现其商业化的服务目标。其对推理引擎的选择,在迎合数据科学家需求、满足终端用户功能和服务质量要求的同时,会平衡考虑资源、人力的初期投入及长期维护成本以维持其竞争力。
终端用户从运营商处消费人工智能模型,寻求服务接入的便利