Hadoop知识筆記

最新推荐文章于 2022-11-06 19:39:25 发布

旧书包的青春

最新推荐文章于 2022-11-06 19:39:25 发布

阅读量77

点赞数

分类专栏： Hadoop

本文链接：https://blog.csdn.net/qq_29220057/article/details/103439217

版权

Hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.集群规模
每天日活100万，每人一天平均100条数据，每条日志1kb左右，半年内不扩容，保存3副本，预留20%-30%buffer,数仓分层
2.框架版本选型
apache 大公司，运维麻烦，组件间兼容性需要自己调研
CDH 用的多，中小公司用得多
HDP 开源
3.服务器选型 1) 物理机 2)云主机
4.什么是shuff Map Reduce
5.分区排序左侧写数据，右侧写索引，对key的索引进行快排，字典顺序排序，溢写，归并排序，等待reduce来拉取数据，
内存->归并排序
shuffle 优化环形缓冲区默认100M，提供阈值比例，默认一次归并10个，提高归并数量，cunb,放到磁盘上进行传输，压缩，
Map输入（切片-LZO）,Reduce输出(LZO,gzip),Reduce默认拉取5个，可以调整，增大Reduce内存，
MapTask 内存1G Reduce内存1G map cpu cores 失败重试次数
6.HDFS 小文件归档压缩 JVM重用一个MapTask处理多个文件
7.Yarn调度流程 ResourcesManager ->地址 ->客户端 ->提交切片信息配置xml jar包 - > 提交完成 ->ApplicationManager ->任务队列 ->
NodeManager -> 运行 container 申请内存 AppicationManager ->读取客户端信息 - >提交->申请nodeManager
Yarn调度器 FIFO 容量公平