比起建立机器学习模型来说,模型部署需要更先进的IT技能。如果大数据专家和开发者们没能跟上节奏,未来堪忧。
在开发机器学习AI算法和投入生产时,企业面临更高挑战。机器学习开发的过程是实验性和探索性的过程,而部署则需要安全且易于管理的一致结果。
开发阶段的目标是优化算法准确性,属于实验性研究阶段,偶尔失败是正常的。然而在生产部署阶段,机器学习模型应用到客户的系统上就会有很多限制因素,例如成本计算、资源消耗以及数据模型等,这些因素在研究初期并没有考虑在内。原因是在研发中无法评估到所有可能性。而且同时要求具备更高的性能和准确性。实施的成本高,规模难度大。
看懂非结构化数据
将机器学习投入生产的最大挑战之一就是充分理解非结构化数据。因为在生产环境中,模型可能会有很多非结构化数据,结构化数据等大量不规则数据,而不是在类似“实验室”中恒定条件下的数据种类。
例如,当使用机器学习算法标记图像时,使用某个图像标记进程确定图像是什么,系统运行一段时间后,新进来的信息又修正算法引导其修正识别结果。这就需要有人在训练集中标记图像。为了能使图像标记样例更加精细化,用户必须在应用上标记好图像标签,这样算法才可进行自我学习,将像素识别成类似的图像。
▼
很多机器学习进程遵循此流程
但对于机器学习模型的许多常见应用来说,流程更复杂。例如挖掘类似改善IT管理的支持请求数据,大数据专家需要找到一种方法来获取支持请求事件,并将每个数据点与内部应用数据相关联