架构图
根据自己的数据量
1)20核物理CPU 40线程 * 7 = 280线程
内存128g * 7台 = 896g (计算任务内存700g,其他安装框架需要内存)
128m ----1g内存
87g数据 ---- 700g内存
2)根据数据规模搭建集群模拟的10台机器
说明
1)消耗内存的分开;
2)kafka 、zk 、flume 传输数据比较紧密的放在一起;
3)客户端尽量放在一到两台服务器上,方便外部访问;
4)还有就是MySQL,sqoop,azkaban,调度的放在一起;
可能出现的问题
1,由于hadoop集群都配的高可用,总会出现很多问题,注意细心可以;
2,kafka也配的是集群,所有配置等都是要同步的;
3,azkaban也配的是集群,所以hive,sqoop也是的和azkaban一样的数量,这样写好的脚本也是同步到位,免得找不到脚本,找不到路径;
4,zookeeper也是集群,这些都要配置同步,而且一定的注意细心;
有问题可以私下沟通;
为梦而来,不能怂