CDH最佳实践 简单说说Hadoop发行版

前面几篇说了些关于Hadoop基础的东西,包括Hadoop是什么,Hadoop常见组件之类的。下面我们来讨论一个问题。假设我们需要做一个项目,里面需要用到Hadoop,HDFS,Spark,Hive,HBase这些组件,还要用一个类SQL查询的工具。那么,我们要如何满足这个需求呢?

当然,最直接的做法,飞奔去各大网站,下各个组件,各种配置,慢慢调整,恭喜发财,祝您胃口好。如果你能够在配置一次以后,形成自己的安装包,做一键启动,那您更有才了,真犀利啊!

当然,如果你又做了一个WEB的图形化界面,哇塞,好厉害好漂漂哦~不过那个类SQL的工具您也自己做了的话。。。

那你来看我文章干毛线?

我是个懒人,从来不造轮子,除非轮子不好用。另一方面,世上每一个能生财的地方一定有人去做,比如Hadoop的整体打包再发布。我们能想到,别人也能想到,于是世界上有了一个叫CDH的东西,也有个叫Hortonworks的东西。他们都是经过第三方机构整合、挑选并包装和增强的Hadoop发行版套装。两家对Hadoop都有所增强,并有部分收费支持的项目。

那么问题来了,我们要选哪个呢?我选CDH。要问我为啥,我会告诉你Intel这么大的财力物力人力都不继续开发自己的IDH了,转投CDH了么?无论为啥,Intel的选择就是对的。如果CDH不是真的好,Intel怎么可能投入这么大的精力去做这个事呢,对不对呢?

回答一下一位同学的疑问。Spark是不是只有CDH才有?答案是,不,Spark属于全人类。只不过CDH让我们有了不必太关注底层安装细节的特权。安装CDH,你不用知道Hadoop装在64位平台上要编译jar包这种事,也不用去管Spark和Hadoop整合的细节问题。你只要有一个高速的网络就行了。又或者,你看完tarball安装指南,照着做一次也就可以了。

感谢懒惰的人类,让世界更美好。

Hadoop是一个开源框架,它允许使用简单的编程模型在跨多个计算节点的分布式环境中存储和处理大数据。Hadoop有两个核心部分:Hadoop Distributed File System(HDFS)和MapReduce。Hadoop有几个主要的发行版本和不同的安装类型,以下是一些常见的Hadoop发行版本和安装类型: 1. Apache Hadoop:这是最原始的Hadoop发行版本,由Apache软件基金会维护。它提供了最基础的Hadoop功能,适用于熟悉Hadoop并愿意自行编译和配置的用户。 2. Cloudera Distribution Including Apache HadoopCDH):CDHHadoop的一个企业级发行版本,由Cloudera公司提供。它包含了Apache Hadoop的全部组件,还添加了额外的工具和功能,以简化安装、配置和管理过程。 3. Hortonworks Data Platform(HDP):HDP是Hortonworks公司提供的企业级Hadoop发行版,它基于开源的Apache Hadoop构建,提供了易于使用和操作的界面和工具集。 4. MapR Converged Data Platform:MapR是另一种企业级的Hadoop发行版,它不仅包括了Hadoop的核心功能,还添加了额外的特性,如实时数据库层和容错性。 安装类型主要包括以下几种: 1. 本地安装(单节点安装):这是最简单的安装方式,Hadoop的所有组件都安装在同一台机器上,通常用于开发和测试。 2. 伪分布式安装:在这种安装模式下,Hadoop的各个守护进程都运行在单个节点上,但每个守护进程作为单独的进程运行,模拟了一个分布式环境。 3. 完全分布式安装:这是一种真正的分布式部署方式,Hadoop集群包含多台机器,每个机器上运行一个或多个守护进程。这是在生产环境中常见的安装类型。 4. 云服务安装:一些云服务提供商如Amazon的EMR(Elastic MapReduce)允许在云上部署和运行Hadoop集群,用户可以按需购买资源并扩展集群。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值