面试整理

集群简述
对于企业而言,一般的集群大小规模大概是如下映射关系:

集群大小

小:10~30节点

中:100~300节点

大:1000+节点

对应所需的zookeeper集群规模大概是

小:3台

中:5台

大:7台

有些同学会说,学这玩意啥用啊?我之前集群环境搭的可6了,咔咔咔一顿操作就OK了,老哥,你试想一下,2000台集群节点呢?按照我们之前的配置方式。。。。。。请开始你的表演。

那么,我们不得不使用CM或类似CM的工具来管理我们的集群。

官方地址:http://www.cloudera.com/

集群管理工具:Cloudera Manager

小企业:

可以选择IBM System服务器

DataNode 20~30台,不需要支持RAID冗余,内存16~24G,对内存要求不大,主要消耗磁盘,磁盘预算:

一般都是16~18TB

每天产生20~50万访问量

每条日志大小:100~500bytes

每次访问平均产生5条日志

一天的数据量:

20~50万访问量 * 5条 * 500字节 / 1024 / 1024 ≈ 1192.0928兆字节数据

一般需要存储1年的数据:

1~5G * 365 = 365~1825G * 3副本 = 1095~5475GB

磁盘一般预留20%,所以可用空间为80%,那么上面得到的数据除以80%即可。

NameNode 2台,内存预算:

1G内存 --- 存储100万个元数据---100万个文件---一般我们需要NameNode内存为128G

ResourceManager一般与NameNode部署在一起

NodeManager一般与DataNode部署在一起

Zookeeper 内存要求不高,对于磁盘的读写性能要求高,网络带宽要求非常高

HBase

HMaster 要求较高的网络带宽

HRegionServer 对内存要求高,分为如下两个开销:

memstore

blockcache


你们集群中hdfs和yarn的使用率是多少 集群闲的时候60%多,忙的时候基本上都是在95%以上;hdfs一般在70%~90%之间;超过90%要么做数据清理,要么做集群扩容


1. job task stage 之间的关系 2. spark 内存溢出 及解决办法3..zk 的介绍及应用场景 4.HBASE 设计 存储数据与读取数据流程 5.hdfs 上传文件原理 6.安全模式命令,恢复过程 7. kafka 集群机器宕机8. 高可用spark集群主备切换过程(原理) 9.几台机器,如何分布,数据量多大 10.处理完数据放在哪里怎么放置 11.Spearkstreaming读取数据,放在zk上或者checkpoint上有什么区别,好处在哪。放在zk是否比放在checkpoint 更好 12.hive 表分区 13. hadoop kafka spark 版本 14. MR 流程 比如 wordcount 15. hadoop 集群 使用原生还是第三方, 常用命令, 如何搭建 16.scala 部分函数 map fltmap 区别 17.hive 窗口函数 各种机器宕机后如何恢复, 如何发现, 你是怎么做的

阅读更多

没有更多推荐了,返回首页