![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
中央维度曲线-GCL
大数据开发,真的不容易。
展开
-
hadoop 细节考察点
1. 在Hadoop 上运行一个Job, 主要就是MR,而MR的优化就是主要的关键。 从六个方面考虑:数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数 InputFormat: CombineTextInputFormat作为输入,解决大量小文件场景. Map阶段:调整 io.sort.mb、sort.spil.percent,增大spill内存上限,减少Spill次数。 调整 io.sort.factor,增大 ...原创 2020-12-03 22:39:34 · 69 阅读 · 0 评论 -
Hadoop 进阶知识体系
1.x版本 与 2.x版本的区别 JoJobTracker: 全局唯一,管理:资源管理,作业调度,作业监控,重新调度作业等。 TaskTracker: 对本节点的资源( cpu、内存、磁盘等 )进行划分,负责具体的作业执行工作 Task: 就是 MapTask 与 ReduceTask 弊端一目了然,JoJobTracker 工作量太大且 存在单节点故障. 有空附上说明… . 2.x版本 YARN 将 MapReduce 1.X 中的 JobTracker 拆分成了两个独立的组件: ResourceM原创 2020-11-30 23:38:44 · 106 阅读 · 0 评论 -
Hadoop 基础知识篇
1. Hadoop 基础知识框架 老规矩灵魂三问,Hadoop是什么?用途在哪方面?如何使用? 分布式文件存储系统。Google的三篇论文 : GFS -->HDFS、MapReduce -->MR、Big Table -->Hive。 主要用于集群节点上 管理保存文件; 安装搭建、命令的上传下载 不说明了, 直接上干货! 架构体系。 现在回过头来看,感觉像是顿悟了. 做到不看图 也能说出来 框架图–各组件间的工作原理 . 脑海中要有三个名词 的组成架构! Client、NameNode.原创 2020-11-25 18:14:24 · 310 阅读 · 0 评论