CDH安装前准备(仅作参考)

CDH安装前准备(仅作参考)

一、 硬件配置建议
选择CDH群集的硬件
测试环境
内存不低于8G
硬盘不低于50G
正式环境参考以下官网对于硬件配置建议
设备名称 设备类型 主要规格 主要用途
管理节点服务器 服务器 2CPU6–10核
256G
6块
1T SAS数据盘
2块双口万兆以太网卡 Cloudera CDH的管理节点,主要安装CM的管理组件,还有MySQL/Oracle数据库用于元数据存储,有tomcat应用服务器提供数据展示服务和对外的web service服务。
数据节点服务器 服务器 2CPU6–10核
256G
12块
4T SATA数据盘
2块双口万兆以太网卡 Cloudera CDH的数据节点,主要安装CDH的各应用组件,HDFS,spark,kafka等。
交换机 交换机 三层交换机,10个万兆光口,4个10G上联光口 为服务器提供后台数据复制的专属网络。

选择机器配置的第一步是了解您的运营团队已经管理的硬件类型。运营团队通常对新机器购买有意见或硬性要求,并且更愿意使用他们已经熟悉的硬件。Hadoop并不是唯一受益于规模效率的系统。同样,作为一般建议,如果群集是新的或您无法准确预测您的最终工作量,我们建议您使用平衡硬件。
基本Hadoop集群中有四种类型的角色:NameNode(和Standby NameNode),JobTracker,TaskTracker和DataNode。(节点是执行特定任务的计算机。)群集中的大多数计算机将执行其中两个角色,同时用作DataNode(用于数据存储)和TaskTracker(用于数据处理)。
以下是平衡Hadoop集群中DataNode / TaskTrackers的建议规范:
• JBOD(Just a Bunch Of Disks)配置中的12-24个1-4TB硬盘
• 2个四核/六核/八核CPU,运行至少2-2.5GHz
• 64-512GB的RAM
• 保税千兆以太网或10千兆以太网(存储密度越大,所需的网络吞吐量越高)
NameNode角色负责协调集群上的数据存储,JobTracker负责协调数据处理。(Standby NameNode不应位于NameNode计算机上的集群中,并且将在与NameNode相同的硬件上运行。)Cloudera建议客户购买企业级计算机以运行NameNode和JobTracker,具有冗余电源和企业RAID 1或10配置中的级别磁盘。
NameNode还需要RAM与集群中的数据块数量成正比。一个好的经验法则是为分布式文件系统中存储的每100万个块假设1GB的NameNode内存。在群集中有100个DataNode,NameNode上的64GB RAM为群集的扩展提供了充足的空间。我们还建议在NameNode和JobTracker上配置HA,这些功能已在CDH4系列中提供了一段时间。
以下是NameNode / JobTracker / Standby NameNode节点的建议规范。驱动器数量将根据冗余量而波动:
• JBOD配置中的4-6个1TB硬盘(1个用于操作系统,2个用于FS映像[RAID 1],1个用于Apache ZooKeeper,1个用于Journal节点)
• 2个四核/六核/八核CPU,运行至少2-2.5GHz
• 64-128GB的RAM
• 保税千兆以太网或10千兆以太网
请记住,Hadoop生态系统的设计考虑了并行环境。
如果您希望Hadoop集群增长超过20台机器,我们建议将初始集群配置为跨越两个机架,其中每个机架都有一个架顶式10 GigE交换机。随着集群扩展到多个机架,您将需要添加冗余核心交换机以将架顶式交换机与40GigE连接。拥有两个逻辑机架使运营团队能够更好地了解机架内和跨机架通信的网络要求。
有了Hadoop集群,团队就可以开始识别工作负载并准备对这些工作负载进行基准测试,以识别硬件瓶颈。经过一段时间的基准测试和监控后,团队将了解应如何配置其他计算机。异构Hadoop集群很常见,特别是当它们的大小和用例数量增加时 - 所以从一组对您的工作负载“不理想”的机器开始不会浪费时间。Cloudera Manager提供的模板允许以组的形式管理不同的硬件配置文件,从而使管理异构集群变得简单。
以下是不同工作负载的各种硬件配置列表,包括我们原来的“平衡”建议:
• 光处理配置(1U /机器):两个六核CPU,24-64GB内存和8个磁盘驱动器(1TB或2TB)
• 平衡计算配置(1U /机器):使用主板控制器直接连接两个六核CPU,48-128GB内存和12-16个磁盘驱动器(1TB或2TB)。这些通常作为双胞胎提供,在一个2U机柜中有两个主板和24个驱动器。
• 存储重配置(2U /机器):两个六核CPU,48-96GB内存和16-24个磁盘驱动器(2TB - 4TB)。在多个节点/机架故障的情况下,此配置将导致高网络流量。
• 计算密集配置(2U /机器):两个六核CPU,64-512GB内存和4-8个磁盘驱动器(1TB或2TB)
(请注意,Cloudera预计在到达时采用2×8,2×10和2×12核心配置。)
官网地址:https://blog.cloudera.com/blog/2013/08/how-to-select-the-right-hardware-for-your-new-hadoop-cluster/
二、系统版本
• RHEL系列:6.10,6.9,6.8,7.2,7.3,7.4,7.5
• SELS:12 SP3,12 SP2
• Ubuntu系列:16.04 LTS
三、环境准备
CDH官网有说明:硬件配置(见一)
测试使用嘛,随便搞搞就行。
操作系统就选用很受欢迎的开源免费的CentOS了。
以3个节点的测试集群为例:(hostname甲方自定义)
ip hostname Remark
192.168.0.201 master1 NameNode,cloudera Server
192.168.0.203 worker1 NameNode࿰

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值