![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 54
停下看着
这个作者很懒,什么都没留下…
展开
-
Hive调优
hive调优 1.mr tez spark 三种引擎的选择 2. 做map端join,把小表放入内存 /+MAPJOIN(t1)/ 3.改变redice个数 参数一: hive.exec.reducers.bytes.per.reducer默认是1G 参数二: hive.exec.reducers.max默认999 修改两个参数控制reduce数量 Reduce个数=min(参数二, 总输入数据...原创 2019-12-04 18:16:32 · 137 阅读 · 0 评论 -
HADOOP优化(实用篇)
一、HDFS调优 1.设置合理块大小(dfs.block.size) 如果块过小,产生的元数据大,会增加namenode的压力;如果块过大可能会随时磁盘空间 2.将中间见过分布多个磁盘上,提高写入速度(mapred.local.dir) 配置mapred-site.xml <property > <name>mapred.local.dir</name> <...原创 2019-12-04 17:44:32 · 421 阅读 · 0 评论 -
大数据开发个人面经2019-09-01
大数据个人面经 一、萌新网络 1.简单的问了一些hpl中的一些函数,比如行转列,列转行,还有row_number窗口函数基本应用 2.yarn任务的调度方式 3.大概数据量 二、撼策科技 1.谈一谈个人对spark的理解 2.一些shell linux指令,比如 查询端口 netstat nltp | grep 端口号 3.hpl的优化 4.hive优化 三、合胜 1.spark sql运行慢,怎...原创 2019-12-04 16:33:40 · 193 阅读 · 0 评论 -
TopN几个情景
1.数据量小的情况直接用cleanup()单ReduecTask处理 2.两个mapreduce处理,建立jobcontrol,shuffle层会为key排序,可以自定义key的compare,升序降序 3.原创 2019-06-01 10:51:45 · 142 阅读 · 0 评论