了解更多Greenplum技术干货,欢迎访问Greenplum中文社区网站
今年QCon大会,蚂蚁金服发布了开源SQLConnectAI产品SQLFlow,旨在“降低人工智能应用的技术门槛,让技术人员调用AI像SQL一样简单”。 SQLFlow 的思想最早可以追溯到2005年,当时 Thomas Tileston 提出了 In-database 分析,将数据库与数据挖掘、机器学习有机地统一了起来。 In-database 分析通过扩充SQL的能力,降低了企业应用机器学习技术的门槛,同时解决了数据在不同系统间移动所产生的一系列问题。
In-databse分析主要具有以下特性:
- 易用性,降低机器学习门槛,掌握SQL的技术人员即可完成大部分的机器学习模型训练及预测任务,掌握TensorFlow和Scikit-learn的技术人员比掌握SQL的技术人员少很多。
- 本地性,减少数据的移动,存储在数据库中的数据在原地进行机器学习建模和推理,提高了分析效率同时,避免了数据移动过程中存在的安全问题,减少了team间沟通成本,以及建造单独数据分析基础设施的IT成本。
- 可扩展性,单机机器学习到集群机器学习的扩展
- 通用性,即支持的机器学习算法的丰富性。
从2005年 Thomas Tileston 提出了 In-database 分析至今,已经涌现出很多 In-database 分析的产品,它们部分或全部支持 In-database 分析的特性,我们将主要的产品和时间线总结在图1.
图1 In-database分析时间线
从时间线可以看出,2009年 MAD Skills 在 VLDB 的发表和2011年 MADlib 项目的诞生可以作为 In-database 分析的里程碑。MADlib 是由 Pivo