基于阿里云EMR初期集群选购指南

最新推荐文章于 2023-02-22 10:03:12 发布

wenqingCoder

最新推荐文章于 2023-02-22 10:03:12 发布

阅读量418

点赞数 1

分类专栏：大数据文章标签： hadoop 云服务器大数据 hdfs

本文链接：https://blog.csdn.net/Mr_ShangHaohao/article/details/110925701

版权

9 篇文章 0 订阅

订阅专栏

业务库：累计15G

日志：累计3T；日增量13G

方案制定：

集群有两个NameNode节点，一台处于active状态，一台处于standby状态，两台机器实时同步元数据信息，但整个集群工作由active状态的NameNode负责，当此台NameNode出现故障（宕机等情况），standby状态的NameNode会立刻转为active模式，保证集群正常运行。

可选磁盘：ESSD PL0 ，高效云盘

磁盘类型后续不可修改，但可增加不同类型磁盘混用；

现有业务高效云盘可以支撑，需考虑后续需求情况；

集群版本：阿里云EMR-3.29.0

Hadoop版本：hadoop2.x

可选组件：

MySQL（云）：1.用来存放各组件的原数据；2.离线数据导出

Kafka（云或自建）：消息中间件，减少业务间耦合度，统一数据源等

Redis（云或自建）：NoSQL数据库，读写速度快，实时项目存储数据，保存偏移量

Airflow（自建）：调度工具，调度任务

DataX（自建）：数据仓库-业务库间数据导入导出

FileBeat（自建）：日志采集

阿里云 Quick BI

关注

专栏目录