面试整理

原创 2018年04月15日 22:03:06
集群简述
对于企业而言,一般的集群大小规模大概是如下映射关系:

集群大小

小:10~30节点

中:100~300节点

大:1000+节点

对应所需的zookeeper集群规模大概是

小:3台

中:5台

大:7台

有些同学会说,学这玩意啥用啊?我之前集群环境搭的可6了,咔咔咔一顿操作就OK了,老哥,你试想一下,2000台集群节点呢?按照我们之前的配置方式。。。。。。请开始你的表演。

那么,我们不得不使用CM或类似CM的工具来管理我们的集群。

官方地址:http://www.cloudera.com/

集群管理工具:Cloudera Manager

小企业:

可以选择IBM System服务器

DataNode 20~30台,不需要支持RAID冗余,内存16~24G,对内存要求不大,主要消耗磁盘,磁盘预算:

一般都是16~18TB

每天产生20~50万访问量

每条日志大小:100~500bytes

每次访问平均产生5条日志

一天的数据量:

20~50万访问量 * 5条 * 500字节 / 1024 / 1024 ≈ 1192.0928兆字节数据

一般需要存储1年的数据:

1~5G * 365 = 365~1825G * 3副本 = 1095~5475GB

磁盘一般预留20%,所以可用空间为80%,那么上面得到的数据除以80%即可。

NameNode 2台,内存预算:

1G内存 --- 存储100万个元数据---100万个文件---一般我们需要NameNode内存为128G

ResourceManager一般与NameNode部署在一起

NodeManager一般与DataNode部署在一起

Zookeeper 内存要求不高,对于磁盘的读写性能要求高,网络带宽要求非常高

HBase

HMaster 要求较高的网络带宽

HRegionServer 对内存要求高,分为如下两个开销:

memstore

blockcache


你们集群中hdfs和yarn的使用率是多少 集群闲的时候60%多,忙的时候基本上都是在95%以上;hdfs一般在70%~90%之间;超过90%要么做数据清理,要么做集群扩容


1. job task stage 之间的关系 2. spark 内存溢出 及解决办法3..zk 的介绍及应用场景 4.HBASE 设计 存储数据与读取数据流程 5.hdfs 上传文件原理 6.安全模式命令,恢复过程 7. kafka 集群机器宕机8. 高可用spark集群主备切换过程(原理) 9.几台机器,如何分布,数据量多大 10.处理完数据放在哪里怎么放置 11.Spearkstreaming读取数据,放在zk上或者checkpoint上有什么区别,好处在哪。放在zk是否比放在checkpoint 更好 12.hive 表分区 13. hadoop kafka spark 版本 14. MR 流程 比如 wordcount 15. hadoop 集群 使用原生还是第三方, 常用命令, 如何搭建 16.scala 部分函数 map fltmap 区别 17.hive 窗口函数 各种机器宕机后如何恢复, 如何发现, 你是怎么做的

张孝祥正在整理Java就业面试题大全

  • 2015年04月17日 20:00
  • 952KB
  • 下载

各种各样的面试题目整理

服务器方面  1、nginx平滑重启 nginx 运行新的工作进程并从容关闭旧的工作进程,通知工作进程关闭监听套接字,但是继续为当前连接的客户提供服务。所有的客户端的服务完成后,旧...
  • Mrtwofly
  • Mrtwofly
  • 2017-01-05 20:37:25
  • 748

面试资料整理(整理中~)

1.介绍下内存的几大区域? 栈区,堆区,静态区(全局区),常量区,代码区 动态数据区一般就是”堆栈”,栈是线性结构,堆是链式结构. 本地变量在堆栈中.通过堆栈的基地址和偏移量来访问本地变量...
  • SUMMER_csdn123
  • SUMMER_csdn123
  • 2017-12-26 11:27:47
  • 285

j2ee面试宝典翻译(3) j2ee job interview companion

j2ee 面试 宝典 翻译 q9-q10
  • zhengwei223
  • zhengwei223
  • 2013-07-13 19:57:13
  • 1490

网上一位牛人整理分享的面试知识

网上一位牛人整理分享的面试知识 http://www.itmian4.com/forum.php?mod=viewthread&tid=3614&fromuid=1...
  • chenglinhust
  • chenglinhust
  • 2013-10-02 14:17:59
  • 1358

RF(随机森林)、GBDT、XGBoost面试级整理

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw由于本文是基于面试整理,因此不会过多的关注公式和推导,如果希望详细了解算法内容,敬请期待后文。      RF、G...
  • meyh0x5vDTk48P2
  • meyh0x5vDTk48P2
  • 2018-02-07 00:00:00
  • 511

Java程序员-面试总结

经历过几天的面试,稍微总结一下现在的一些面试问题:1、Mysql的优化 2、自己常用的设计模式,设计模式的好处 3、Spring的原理或者核心 4、事务的几种传播方式,说说每个的原理 5、ha...
  • wu6660563
  • wu6660563
  • 2017-02-17 17:12:56
  • 1243

cc++面试整理(非常经典)

  • 2008年08月25日 01:01
  • 8KB
  • 下载

Android面试知识点整理

前言 本来应该在秋招结束时就将整理出来的知识点发布博客的,结果忘了。好在现在不算晚,给春招的同学一点参考。 一、 Activity 1. lifecycle onCreate onS...
  • zy13608089849
  • zy13608089849
  • 2018-02-07 23:36:31
  • 43

计算机网络面试常考知识点整理

有那么一些零碎的小知识点,偶尔很迷惑,偶尔被忽略,偶然却发现它们很重要,也是各大笔试和面试高频出现考点。这段时间正好在温习这些,就整理在这里,一起学习一起提高!后面还会继续补充。 ——前言 ...
  • liujianfei526
  • liujianfei526
  • 2016-06-09 15:52:00
  • 1540
收藏助手
不良信息举报
您举报文章:面试整理
举报原因:
原因补充:

(最多只允许输入30个字)