Openstack 推出了一个名为 Sahara 的项目 —— 数据处理即服务。 Openstack Sahara 旨在配置和管理数据处理框架,如集群拓扑中的 hadoop mapreduce、spark和storm 。该项目与 Amazon Elastic MapReduce(EMR) 服务提供的数据分析平台类似。Openstack Sahara 可在几分钟内部署集群。此外,Openstack Sahara 可以根据需求通过添加或删除工作节点来伸缩集群。
OpenStack是一种云操作系统,用于提供虚拟机,而OpenStack Sahara是一个附加组件,使管理员能够在这些虚拟机上部署Spark和Hadoop。
使用 Openstack Sahara 管理 Hadoop 集群的好处
——集群可以更快地提供且易于配置。
——像其他 OpenStack 服务一样,Sahara 服务可以通过强大的 REST API、CLI 和 Horizon 仪表板进行管理。
——插件可用于支持 Vannila(Apache Hadoop)、HDP(ambari)、CDH(Cloudera)、MapR、Spark、Storm 等多个 Hadoop 供应商。
——集群大小可根据需求进行伸缩。
——可以与 OpenStack Swift 集成以存储由 Hadoop和 Spark 处理的数据。
——集群监控变得简单。
——除集群配置外,Sahara 还可以用作分析即服务,用于临时或突发分析工作负载。
架构
Openstack Sahara 旨在利用 OpenStack 的核心服务和其他完全