0001-CDH网络要求(Lenovo参考架构)

Fayson的github: https://github.com/fayson/cdhproject

推荐关注微信公众号:“Hadoop实操”,ID:gh_c4c535955d0f,或者扫描文末二维码。

1.组网配置

建议的Cloudera组网配置如下图,主要包含数据网络和管理网络。
在这里插入图片描述

2.数据网络

数据网络是用于数据访问的节点之间的私有集群数据互连,比如在集群内的节点之间移动数据,或者将数据导入到CDH集群。CDH集群通常会连接到企业内部的数据网络。

需要2个TOR交换机:一个是用作带外管理,一个是用于CDH的数据网络。节点的带外管理至少需要一个1GbE交换机。数据网络的交换机一般为10GbE,具体取决于工作负载。

推荐的1GbE交换机是Lenovo RackSwitch G8052。10Gb以太网交换机可以提供额外的I/O带宽,以获得更好的性能。推荐的10GbE交换机是Lenovo System NetworkingRackSwitch 8272。

每个节点的两个Broadcom 10GbE端口可以绑定后连接到G8272交换机,从而提高性能或配置HA。数据网络可以配置为使用VLAN。

注:无论是工作节点还是管理节点,Cloudera都不支持multi-homing。

3.硬件管理网络

硬件管理网络是用于带外硬件管理的1 GbE网络。通过System x3650 M5服务器中的集成管理模块II(IMM2),带外管理可实现集群节点的硬件级管理,如节点部署,基本输入/输出系统(BIOS)配置,状态和电源状态。

Hadoop不依赖于IMM2。根据客户要求,管理链接可以分隔到不同的VLAN或子网上。 管理网络通常直接连接到客户的管理网络。

参考架构需要一个1 Gb以太网TOR交换机用于硬件管理网络。管理员还可以通过客户管理网络访问集群中的所有节点,在第一章的图中,管理链路连接到集成的1 GBaseT适配器上的专用IMM2端口。

4.多机架的网络

以上谈到的数据网络的参考架构配置是由单个网络拓扑构成的。如果是多机架的架构,还需要一个联想RackSwitch G8316核心交换机。 在这种情况下,第二个Broadcom10 GbE端口可以连接到第二个Lenovo RackSwitch G8272。G8272的过载率(over-subscription ratio)是1:2.

下图展示了当CDH集群安装在多个机架上时,如何配置网络。每个机架的G8272交换机通过两个聚合的40 GbE上行链路连接到核心G8316交换机。
在这里插入图片描述

注:为了简化这个图,图中仅绘制了一个G8272,但是推荐使用两个G8272并配置为HA。

跨机架的交换机推荐40GbE的,可以用Lenovo System NetworkingRackSwitch G8316。最佳实践是为每个机架安装冗余的核心交换机,以避免单点故障。在每个机架内,G8052交换机可以选择配置为具有两个G8272交换机的上行链路,以允许通过G8316核心交换机在集群机架之间传播管理VLAN。对于大型集群,推荐使用Lenovo System NetworkingRackSwitch G8332,因为每个40 Gb的端口的价格比G8316要更低。可以配置成许多机架能互相访问网络,但可能需要做一些特定的部署配置来满足超过3个机架的快速寻址。

如果开始规划的就是多机架的解决方案,或者随着系统的扩容后面慢慢的加入了一些机架,CDH管理服务相关的节点我们建议分开部署在不同的机架从而最大化容错。

5.CDH其他网络要求

Hadoop网络要求:

1.所有的Hadoop服务器节点应该是独有的网络,而不存在跟其他应用程序的节点共享网络I/O的情况。

2.每个服务器应该都配置静态IP。如果配置了动态IP,在机器重启或者DNS租约过期时,机器的IP地址会改变,这将导致Hadoop服务故障。

3.专用TOR交换机。

4.专用的核心交换刀片或者核心交换机。

5.尽量保证应用服务器与Hadoop“近”一些。

6.CDH只支持IPv4,不支持IPv6

7.机架之间的网络连接速度应该足够快。

8.确保网络接口对于集群中的所有节点应该是一致的。(比如MTU设置应该一样)

9.关闭所有节点的Huge Page compaction

10.确保集群中的所有网络连接都会被监控,比如冲突和丢包问题。以方便后期进行排障。


为天地立心,为生民立命,为往圣继绝学,为万世开太平。

推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。
在这里插入图片描述

原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操

CDH是Apache Hadoop和相关项目的最完整,经过测试的流行发行版。 CDH提供了Hadoop的核心元素 - 可扩展的存储和分布式计算 - 以及基于Web的用户界面和重要的企业功能。 CDH是Apache许可的开放源码,是唯一提供统一批处理,交互式SQL和交互式搜索以及基于角色的访问控制的Hadoop解决方案。 Cloudera作为一个强大的商业版数据中心管理工具,提供了各种能够快速稳定运行的数据计算框架,如Apache Spark;使用Apache Impala做为对HDFS,HBase的高性能SQL查询引擎;也带了Hive数据仓库工具帮助用户分析数据; 用户也能用Cloudera管理安装HBase分布式列式NoSQL数据库;Cloudera还包含了原生的Hadoop搜索引擎以及Cloudera Navigator Optimizer去对Hadoop上的计算任务进行一个可视化的协调优化,提高运行效率;同时Cloudera中提供的各种组件能让用户在一个可视化的UI界面中方便地管理,配置和监控Hadoop以及其它所有相关组件,并有一定的容错容灾处理;Cloudera作为一个广泛使用的商业版数据中心管理工具更是对数据的安全决不妥协! CDH 提供: 灵活性 - 存储任何类型的数据,并使用各种不同的计算框架进行处理,包括批处理,交互式SQL,自由文本搜索,机器学习和统计计算。 集成 - 在一个可与广泛的硬件和软件解决方案配合使用的完整Hadoop平台上快速启动并运行。 安全 - 过程和控制敏感数据。 可扩展性 - 启用广泛的应用程序并进行扩展和扩展,以满足您的需求。 高可用性 - 充满信心地执行关键业务任务。 兼容性 - 利用您现有的IT基础设施和资源。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值