大数据平台架构与原型实现-读书笔记3

本文介绍了大数据平台的基础设施建设,包括集群规划、阿里云实例和组网创建、集群安装等步骤。在集群规划中,强调了节点角色分配,如Master、Worker、Utility和Gateway的角色。在创建实例和组网部分,详细讲解了阿里云上创建专有网络、安全组、实例的过程。安装集群阶段,涵盖了环境预配置、MySQL集群、Cloudera Manager Server安装以及高可用配置。最后提到了单节点集群的安装注意事项。
摘要由CSDN通过智能技术生成

第三章 基础设施

一、集群规划

1.1 集群规模与节点配置

       安装一个标准的生产环境,建议的集群物理架构如图:

  •  首先,为了避免实时处理和批处理相互影响,他们两个是独立的HDFS+Yarn的集群,在CDH中可通过一组主节点管理多套集群。
  • 其次,流计算节点上只需要安装NodeManager,不需要安装DataNode,因为流计算节点只负责计算,不存储数据,在进行流计算时不存在数据存储与计算资源的“共生”问题,但批处理集群上,NodeManager一定要和DataNode共生。

1.2 节点角色分配

       按照“3~20 Worker Hosts with High Availability”规模分配角色,详细划分如下:

  • Master节点主要承载NameNode和YARN ResourceManager,两个服务器需要启动HA,所以需要两个Master节点组成双主架构,为保证双主节点的稳定性和负载均衡,不建议在安装其他主服务。
  • Utility节点安装其他组件的主服务,如Hive Metastor、Oozie等;Cloudera Manger也安装在Utility节点上,Cloudera Manager占用的资源相对较大,在集群规模较小时刻安排在Utility上与其他服务共享,以后随着规模扩展,也可考虑将其迁移到单独节点上。
  • Gateway节点专门供各类应用程序部署和提交作业,所以上面安装各个组件的Client;Gateway的主要负载并不是客户端服务,而是应用程序的客户端本身,如在Gateway节点上使用Client模式提交的Spark作业,则Driver的负载会落在Gateway上;Hue也被建议安排在Gateway节点,Hue有时也会被建议放在Utility节点。(如Hue用户较少,仅由运维或管理员使用,可将Hue视为某种Master服务;如Hue被作为大数据平台的一个终端开放给很多用户使用,则应安装在Gateway节点,方便日后扩容)。

二、创建实例和组网(以阿里云平台操作为例)

2.1 登录云控制台

       在开始创建实例之前,首先要未集群建立一个专用的虚拟网络(VPC),然后将后续创建的实例加入这个网络,尽管在云服务器上ECS会创建默认VPC,但还建议建设一个专有的VPC。

2.2 创建专有网络

  • 专有网络

       取名为:bpd-cluster-vpc

       IPv-4网段选择:10.0.0.0/8

  • 交换机

       虚拟交换机名称:bpd-cluster-vsw(代表bpd-cluster-vpc下的一个子网)

       IPv-4网段:10.0.0.0/24

2.3 创建安全组

       新建安全组名称:bdp-cluster-sg,专有网络选择“bpd-cluster-vpc”,即将安全组和新建的VPC关联在一起。安全组配置规则分为“入方向(inbound即从外部访问云服务器)”和“出方向(outbound即从与服务器访问外部地址)”如下:

  • 直接将“入方向”和“出方向”上各设定一
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值