基于阿里云EMR初期集群选购指南

 

  • 业务数据量

       业务库:累计15G

       日志:累计3T;日增量13G

 

  • 集群配置

     方案制定:

  1. 高可用(建议):

       集群有两个NameNode节点,一台处于active状态,一台处于standby状态,两台机器实时同步元数据信息,但整个集群工作由active状态的NameNode负责,当此台NameNode出现故障(宕机等情况),standby状态的NameNode会立刻转为active模式,保证集群正常运行。

 

  1. 方案:

 

方案一

方案二

方案三

方案四

是否高可用

总机器数

4

4

3

3

Master节点数

2

2

1

1

Master核心数

16

16

16

16

Master内存

64G

64G

64G

64G

Master磁盘

120G ESSD系统盘+1T ESSD硬盘

120G ESSD系统盘+1T高效云盘

120G ESSD系统盘+1T ESSD硬盘

120G ESSD系统盘+1T高效云盘

Worker节点数

2

2

2

2

Worker核心数

16

16

16

16

Worker内存

64G

64G

64G

64G

Worker磁盘

120G ESSD系统盘 + 4*2T ESSD硬盘

120G ESSD系统盘 + 4*2T 高效云盘

120G ESSD系统盘 + 4*2T ESSD硬盘

120G ESSD系统盘 + 4*2T 高效云盘

预估价格

26592.00/

14611.20/

23528.00/

12212.80/

 

 

 

 

 

 

  1. 磁盘性能对比

       可选磁盘:ESSD PL0 ,高效云盘

       磁盘类型后续不可修改,但可增加不同类型磁盘混用;

       现有业务高效云盘可以支撑,需考虑后续需求情况;

 

  • 技术选型

       集群版本:阿里云EMR-3.29.0

       Hadoop版本:hadoop2.x       

       可选组件:

  1. Zookeeper(高可用默认安装):分布式服务框架,Hbase和手动安装低版本Kafaka会用到
  2. Impala:快速查询HDFS或HBase中的数据的查询系统
  3. Flume:数据采集工具,可用来做日志采集
  4. Flink:现在非常流行的实时数据处理工具

 

  • 其他

       MySQL(云):1.用来存放各组件的原数据;2.离线数据导出

       Kafka(云或自建):消息中间件,减少业务间耦合度,统一数据源等

       Redis(云或自建):NoSQL数据库,读写速度快,实时项目存储数据,保存偏移量

       Airflow(自建):调度工具,调度任务

       DataX(自建):数据仓库-业务库间数据导入导出

       FileBeat(自建):日志采集

 

  • 数据流

 

  • 数据门户

       阿里云 Quick BI

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值