大数据学习第二课:CDH安装

本章主要内容:

  • Hadoop发行版介绍
  • CDH离线安装教程
  上一课我们学习了如何搭建虚拟机的,不过那也只是完成了入门大数据的第一步,今天开始进行第二步,也就是大数据相关工具的安装。

一、Hadoop发行版

  Apache Hadoop往小了说就是个开源项目,往大了说简直就是开源界唯一的大数据标准。它实在是太火了,所以很多商业公司在它的基础上包装成不同的发行版。就类似Linux很火,为了方便普通用户它也有很多发行版,如RedHat,Ubuntu等。

  Hadoop的发行版很多,有商业的有免费的,例如华为和Intel都有自己的商业发行版。不过市场占有率最高的还是这三个玩家:Cloudera、Hortonworks和MapR。

  2008年成立的Cloudera是最早将Hadoop商用的公司,为合作伙伴提供Hadoop的商用解决方案,主要是包括支持,咨询服务,培训。2009年Hadoop的创始人Doug Cutting大神也任职于Cloudera公司。Cloudera产品主要为CDH,Cloudera Manager,Cloudera Support。CDH是Cloudera的hadoop发行版,完全开源,比Apache Hadoop在兼容性,安全性,稳定性上有增强。Cloudera Manager是集群的软件分发及管理监控平台,可以在几个小时内部署好一个Hadoop集群,并对集群的节点及服务进行实时监控。Cloudera Support即是对Hadoop的技术支持。
  2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建的公司。公司成立之初吸纳了大约25名至30名专门研究Hadoop的雅虎工程师,上述工程师均在2005年开始协助雅虎开发Hadoop,这些工程师贡献了hadoop 80%的代码。雅虎工程副总裁、雅虎Hadoop开发团队负责人Eric Baldeschwieler出任Hortonworks的首席执行官。Hortonworks的主打产品是Hortonworks Data Platform (HDP),也同样是100%开源的产品,HDP除了常见的项目外还包含了Ambari,一款开源的安装和管理系统,还有HCatalog,一个元数据管理系统。
  Cloudera和Hortonworks均在不断的提交代码完善Apache Hadoop开源版本,而2009年成立的MapR公司在Hadoop领域显得有点特立独行,因为它提供了一款特别独特的发行版 。Hadoop在性能(在当前Hadoop的设计中,所有的元数据操作都要通过集中式的Namenode来进行,Namenode有可能是性能的瓶颈;M/R应用程序需要通过DataNode来访问HDFS, 这就涉及到额外的进程切换和网络传输开销),可靠性与扩展性(Namenode,Jobtracker单点问题),企业级应用上的弱点(比如完全可读写的文件系统,Snapshot,Mirror等等)各大厂商也是都知道的,MapR则认为,Hadoop的这些缺陷来自于其架构设计本身,小修小补不能解决问题。他们选择了一条艰难得多的路:用新架构重写HDFS,同时在API级别,和目前的Hadoop发行版保持兼容。这家2009年成立的创业公司,在蛰伏了两年之后,终于一鸣惊人,大放异彩。他们成功的“构建一个HDFS的私有替代品,这个替代品比当前的开源版本快三倍,自带快照功能,而且支持无Namenode单点故障(SPOF),并且在API上和兼容,所以可以考虑将其作为替代方案。” MapR版本不再需要单独的Namenode机器,元数据分散在集群中,也类似数据默认存储三份。也不再需要用NAS来协助Namenode做元数据备份,提供了机器使用率。还有个重要的特点的可以使用nfs直接访问hdfs,提供了与旧有应用的兼容性。镜像功能也很适合做数据备份,而且支持跨数据中心的镜像,快照功能对于数据的恢复作用明显。
  我们国内目前使用的最多的还是Cloudera的CDH,它有一下优点:

  • CDH对Hadoop版本的划分非常清晰
  • CDH文档清晰,很多采用Apache版本的用户都会阅读cdh提供的文档,包括安装文档、升级文档等
  所以本课我们主要以CDH的发行版学习。

二、文件下载

  安装软件当然要先下载安装包,这里先让大家去下载文件,因为文件还不小,接近2G,下好后放到一个统一的目录,后面使用。我们主要有两类文件需要下载。一是Cloudera Manager,去这个地址 http://archive.cloudera.com/cm5/repo-as-tarball/ 找一个版本下载,我下载的是最新的5.13.0版本;二是CDH包,对应的最新版本地址是http://archive.cloudera.com/cdh5/parcels/5.13.0/,目录里面的parcel文件,对应的sha1文件和manifest.json文件都下载。

三、CDH离线安装

  CDH提供了在线安装或软件源安装,但是都对安装机器有联网要求,而且包还很大,下载还很慢,官方也不推荐生产环境使用在线安装的方式,所以我们这里也离线安装。Cloudera Manager是CDH的管理平台,

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值