对hadoop初学者来说,或者说正在使用hadoop的开发者来说,hadoop环境的搭建不是一件省心的事,甚至很多博客上都重要的事说三便“不要花精力在搭建环境之上”,可见很多人在搭建环境时会遇到很多问题,并且会花费很多时间,本文将把所有的“玩法”都过一下,相信看完之后,你心里就有数了,将会依据自己的需求来选择合适的搭建方式。
部署方式 | 优势 | 不足 | 适合场合 |
Apache Hadoop 单机 | • 单台机器即可 • 简单 • 所需组件少 | • 一般不用于生产 • 无HA • 无法体现分布式 | • 初学 • 开发测试 • 小规模试用 |
Apache Hadoop 集群 | • 灵活的版本选择 • 自主可控性较好 • 应用场景广泛 | • 需专业人员管理 • 组件间兼容性差 • 配置、运维复杂 | • 学习 • 开发测试 • 生产环境 |
CDH或 HDP | • Web管理和监控 • 开源厂商支持 • 兼容性和稳定高 | • 仍需大量配置 • 受制于厂商 • 更新版本稍慢 | • 开发测试 • 生产环境 |
其它厂商类CDH | • 有自己扩展特性 • 厂商支持 | • 非免费 • 严重受制于厂商 | • 生产环境 |
编写shell部署运维脚本 | • 自控性好 • 配置简单 • 灵活性好 | • 需编写脚本 • 测试费时 • 需不断完善 | • 学习 • 开发测试 • 生产环境 |
通过上面的对比,总结如下:
l 初学hadoop,希望快速开始,采用第一种apache单机,无基础的情况下1个小即可完成,有linux基础除掉安装虚拟机、linux的时间,10分钟可完成;
l 用于生产环境或测试环境,采用第三种cdh方式,管理集群都是图形化,但是缺少了对内部深层次的了解;
l 对于深入学习者,已经有一定经验和积累了,可以选最后一种,不断可以深入的了解内部各进程依赖关系,还可以提升shell脚本文件编程水平。
关于每一种环境的详细搭建方式,将会分几个章节在后面分别介绍,另外如果可能也会录制一些免费视频,详细的讲解一下操作步骤。
打个广告,最近录了一门课程,大部分是免费的,忙我凑凑人气哦! HBase 设计和编程开发视频课程