hadoop大数据平台
Hadoop分布式文件系统,MapReduce编程框架以及用于在大型商用硬件集群上处理海量数据集的扩展工具系列,在十多年来,Hadoop一直是“大数据”的同义词。 但是,没有任何技术可以永远吸引人们的注意。
尽管Hadoop仍然是大数据平台的重要组成部分,但主要的Hadoop供应商(即Cloudera,Hortonworks和MapR)已经大大改变了他们的平台。 曾经作为外围项目的Apache Spark和Apache Kafka等已成为新的明星,并且焦点已转向其他方法来钻取数据并提取见解。
让我们简要浏览一下三个领先的大数据平台,每种技术都将Hadoop技术加进来以使其与众不同,以及它们如何演变以拥抱容器,Kubernetes,机器学习和深度学习的新时代。
Cloudera企业数据中心
Cloudera是第一个通过Hadoop发行版进入市场的公司-不足为奇的是,它的核心团队由曾在Yahoo,Google和Facebook等地方利用Hadoop的工程师组成。 Hadoop共同创建者Doug Cutting担任首席架构师。
公司与Cloudera企业数据中心(EDH)的战略是“策划和扩展” Hadoop生态系统中的开源项目,以提供商业许可的平台,其中企业级支持和服务是价格的一部分。 该公司还提供称为Cloudera Data Hub(CDH)的开源,免费使用的Hadoop发行版。 此外,Cloudera还提供了EDH的60天试用版,作为入门的另一种方法。
在哪里下载Cloudera
Cloudera提供了多种下载和使用CDH的方式 。 VM和Docker映像可用于在本地运行EDH; Cloudera Manager可以用于在集群上部署CDH和EDH(包括试用版)。 Cloudera Director可以通过AWS快速入门部署到云环境中,其中包括Amazon。
Cloudera的独特功能
Cloudera一直以Apache Spark和与Spark相关的项目为中心,这是其发行的核心。 充分利用统一分析引擎的优势,Cloudera分别利用Spark Streaming,Spark MLlib和Spark SQL进行实时流数据,机器学习和SQL风格的数据查询。
Cloudera提供的一项重要增值是其Cloudera Navigator软件,这是一组专有的数据治理,管理和优化工具。 Cloudera Navigator跟踪组织中数据的来源以进行管理,合规性和审计,提供持续的数据工作量使用情况统计信息,并建议匹配的数据放置策略。
Cloudera EDH的本地机器学习方面仅限于Spark MLlib。 例如,对TensorFlow的本机支持不是广告的EDH功能。 但是,Cloudera Data Science Workbench产品为EDH提供了用户友好的数据科学前端,最终用户可以在EDH与TensorFlow等框架之间创建自己的集成。
Hortonworks数据平台
Hortonworks数据平台(HDP)是纯开源Hadoop发行版。 产品本身可以免费使用。 Hortonworks的企业客户为支持服务付费,并获得了主动的故障排除工具(其本身是专有的)来避免将来的问题。
何处下载Hortonworks
Hortonworks网站提供了多种格式的HDP下载 。 自动化安装程序可以在各种本地或云体系结构上部署HDP,而RPM可用于那些想要手动部署的人。 HDP的早期版本可作为Hortonworks Sandbox版本获得,它们是预配置的HDP环境,打包在虚拟机中,供开发人员测试使用。
Hortonworks的独特功能
现在已在GA中发布的HDP 3.0包括针对云环境和云原生数据存储格式(例如Amazon S3和Google Cloud Storage)的自动配置; 借助Apache Hive的交互式SQL查询功能,并支持基于GPU的处理。
最重要的新功能涉及容器。 Docker容器中的应用程序可以作为YARN作业与传统Hadoop工作负载并行运行。 在Docker容器中进行部署是确保作业可以使用特定版本的语言运行时运行的有用方法。 也可以通过YARN上的Kubernetes在Kubernetes上运行容器,其中YARN用作Kubernetes中的调度程序。
当前可作为技术预览使用的另一项新功能使您可以在整个HDP集群的容器中部署TensorFlow深度学习应用程序。 显然,这是将HDP变成端到端机器智能平台的一步。
MapR融合数据平台
MapR的旗舰产品在2016年更名为“ MapR融合数据平台”,就其许可而言位于Hortonworks和Cloudera之间。 MapR具有完全开源的社区发行版,可以免费使用,但也提供具有高可用性,数据快照,灾难恢复,技术支持和其他企业级功能的付费企业版。
在哪里下载MapR
MapR提供了一个安装程序包,以部署社区版或企业版 。 云部署可直接用于全球的AWS,Microsoft Azure,Google Cloud和其他云提供商。 MapR还提供了“沙盒”版本 ,其中包含适用于VMware或VirtualBox的虚拟机映像。
独特的MapR功能
MapR融合数据平台包括三个主要组件:MapR-FS文件系统(实质上是将多个数据存储范例透明地集成到包括Hadoop的HDFS在内的文件系统接口中); NoSQL样式的文档数据库; 以及与Apache Kafka兼容的事件流引擎。
这个与Kafka兼容的MapR Streams事件流引擎是MapR的另一个主要特色,它着重于在线,流,实时和边缘处理方案。 一个名为MapR Edge的MapR的小尺寸版本旨在在IoT场景中处理数据。
MapR已在其平台中腾出空间以适应容器和机器学习这两个最近的重要趋势。 可以使用Kubernetes调度Docker映像并在整个MapR集群上运行Docker映像,并且MapR提供了Kubernetes卷驱动程序,该驱动程序允许这些容器直接连接到MapR-FS资源。
翻译自: https://www.infoworld.com/article/3290344/3-big-data-platforms-look-beyond-hadoop.html
hadoop大数据平台