大数据分析中,进行流程化的批处理是必不可少的。传统的大数据处理大部分是基于关系数据库系统,难以实现大规模扩展;主流的基于Hadoop/Spark体系总体性能较强,但使用复杂、扩展能力弱。大数据分析向Kubernnetes等容器集群发展是大势所趋,AirFlow、NiFi、MLFlow、KubeFlow就是可以用于这些方向的新兴开源软件平台,可以充分容器集群和DevOps、云计算的优势,而且将传统的大量数据处理和机器学习等先进算法能够实现有机的结合。
AirFlow数据流程化处理系统
AirFlow是可编程的DAG流程框架,主要通过Python执行。最新版本通过Executor机制支持Kubernetes集群作为执行环境,从而可以将大量数据处理的流程在容器云中进行迁移。