hadoop大数据平台_Hadoop之外的3个大数据平台

最新推荐文章于 2024-08-06 20:52:38 发布

cxq8989

最新推荐文章于 2024-08-06 20:52:38 发布

阅读量1k

点赞数

文章标签：大数据 java 人工智能 hadoop 机器学习

原文链接：https://www.infoworld.com/article/3290344/3-big-data-platforms-look-beyond-hadoop.html

版权

hadoop大数据平台

Hadoop分布式文件系统，MapReduce编程框架以及用于在大型商用硬件集群上处理海量数据集的扩展工具系列，在十多年来，Hadoop一直是“大数据”的同义词。但是，没有任何技术可以永远吸引人们的注意。

尽管Hadoop仍然是大数据平台的重要组成部分，但主要的Hadoop供应商（即Cloudera，Hortonworks和MapR）已经大大改变了他们的平台。曾经作为外围项目的Apache Spark和Apache Kafka等已成为新的明星，并且焦点已转向其他方法来钻取数据并提取见解。

[InfoWorld的要点：什么是Apache Spark？ 大数据分析平台介绍了以下内容 • Spark教程：Apache Spark入门 • 什么是数据挖掘？ 分析如何发现见解。 | 通过《 InfoWorld日报》时事通讯了解最新的企业技术中的关键新闻和问题。 ]

让我们简要浏览一下三个领先的大数据平台，每种技术都将Hadoop技术加进来以使其与众不同，以及它们如何演变以拥抱容器，Kubernetes，机器学习和深度学习的新时代。

Cloudera企业数据中心

Cloudera是第一个通过Hadoop发行版进入市场的公司-不足为奇的是，它的核心团队由曾在Yahoo，Google和Facebook等地方利用Hadoop的工程师组成。 Hadoop共同创建者Doug Cutting担任首席架构师。

公司与Cloudera企业数据中心（EDH）的战略是“策划和扩展” Hadoop生态系统中的开源项目，以提供商业许可的平台，其中企业级支持和服务是价格的一部分。该公司还提供称为Cloudera Data Hub（CDH）的开源，免费使用的Hadoop发行版。此外，Cloudera还提供了EDH的60天试用版，作为入门的另一种方法。

在哪里下载Cloudera

Cloudera提供了多种下载和使用CDH的方式。 VM和Docker映像可用于在本地运行EDH； Cloudera Manager可以用于在集群上部署CDH和EDH（包括试用版）。 Cloudera Director可以通过AWS快速入门部署到云环境中，其中包括Amazon。

Cloudera的独特功能

Cloudera一直以Apache Spark和与Spark相关的项目为中心，这是其发行的核心。充分利用统一分析引擎的优势，Cloudera分别利用Spark Streaming，Spark MLlib和Spark SQL进行实时流数据，机器学习和SQL风格的数据查询。

Cloudera提供的一项重要增值是其Cloudera Navigator软件，这是一组专有的数据治理，管理和优化工具。 Cloudera Navigator跟踪组织中数据的来源以进行管理，合规性和审计，提供持续的数据工作量使用情况统计信息，并建议匹配的数据放置策略。

Cloudera EDH的本地机器学习方面仅限于Spark MLlib。例如，对TensorFlow的本机支持不是广告的EDH功能。但是，Cloudera Data Science Workbench产品为EDH提供了用户友好的数据科学前端，最终用户可以在EDH与TensorFlow等框架之间创建自己的集成。

Hortonworks数据平台

Hortonworks数据平台（HDP）是纯开源Hadoop发行版。产品本身可以免费使用。 Hortonworks的企业客户为支持服务付费，并获得了主动的故障排除工具（其本身是专有的）来避免将来的问题。

何处下载Hortonworks

Hortonworks网站提供了多种格式的HDP下载。自动化安装程序可以在各种本地或云体系结构上部署HDP，而RPM可用于那些想要手动部署的人。 HDP的早期版本可作为Hortonworks Sandbox版本获得，它们是预配置的HDP环境，打包在虚拟机中，供开发人员测试使用。

Hortonworks的独特功能

现在已在GA中发布的HDP 3.0包括针对云环境和云原生数据存储格式（例如Amazon S3和Google Cloud Storage）的自动配置；借助Apache Hive的交互式SQL查询功能，并支持基于GPU的处理。

最重要的新功能涉及容器。 Docker容器中的应用程序可以作为YARN作业与传统Hadoop工作负载并行运行。在Docker容器中进行部署是确保作业可以使用特定版本的语言运行时运行的有用方法。也可以通过YARN上的Kubernetes在Kubernetes上运行容器，其中YARN用作Kubernetes中的调度程序。

当前可作为技术预览使用的另一项新功能使您可以在整个HDP集群的容器中部署TensorFlow深度学习应用程序。显然，这是将HDP变成端到端机器智能平台的一步。