第三章 基础设施
一、集群规划
1.1 集群规模与节点配置
安装一个标准的生产环境,建议的集群物理架构如图:
- 首先,为了避免实时处理和批处理相互影响,他们两个是独立的HDFS+Yarn的集群,在CDH中可通过一组主节点管理多套集群。
- 其次,流计算节点上只需要安装NodeManager,不需要安装DataNode,因为流计算节点只负责计算,不存储数据,在进行流计算时不存在数据存储与计算资源的“共生”问题,但批处理集群上,NodeManager一定要和DataNode共生。
1.2 节点角色分配
按照“3~20 Worker Hosts with High Availability”规模分配角色,详细划分如下:
- Master节点主要承载NameNode和YARN ResourceManager,两个服务器需要启动HA,所以需要两个Master节点组成双主架构,为保证双主节点的稳定性和负载均衡,不建议在安装其他主服务。
- Utility节点安装其他组件的主服务,如Hive Metastor、Oozie等;Cloudera Manger也安装在Utility节点上,Cloudera Manager占用的资源相对较大,在集群规模较小时刻安排在Utility上与其他服务共享,以后随着规模扩展,也可考虑将其迁移到单独节点上。
- Gateway节点专门供各类应用程序部署和提交作业,所以上面安装各个组件的Client;Gateway的主要负载并不是客户端服务,而是应用程序的客户端本身,如在Gateway节点上使用Client模式提交的Spark作业,则Driver的负载会落在Gateway上;Hue也被建议安排在Gateway节点,Hue有时也会被建议放在Utility节点。(如Hue用户较少,仅由运维或管理员使用,可将Hue视为某种Master服务;如Hue被作为大数据平台的一个终端开放给很多用户使用,则应安装在Gateway节点,方便日后扩容)。
二、创建实例和组网(以阿里云平台操作为例)
2.1 登录云控制台
在开始创建实例之前,首先要未集群建立一个专用的虚拟网络(VPC),然后将后续创建的实例加入这个网络,尽管在云服务器上ECS会创建默认VPC,但还建议建设一个专有的VPC。
2.2 创建专有网络
- 专有网络
取名为:bpd-cluster-vpc
IPv-4网段选择:10.0.0.0/8
- 交换机
虚拟交换机名称:bpd-cluster-vsw(代表bpd-cluster-vpc下的一个子网)
IPv-4网段:10.0.0.0/24
2.3 创建安全组
新建安全组名称:bdp-cluster-sg,专有网络选择“bpd-cluster-vpc”,即将安全组和新建的VPC关联在一起。安全组配置规则分为“入方向(inbound即从外部访问云服务器)”和“出方向(outbound即从与服务器访问外部地址)”如下:
- 直接将“入方向”和“出方向”上各设定一