![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
文章平均质量分 74
u4110122855
1.熟悉 Spark、 ElasticSearch、 Kafka、 Solr、 Impala等分布式开源组件
2.熟悉 Spark、 MapReduce 计算框架和工作原理,了解Tez框架
3.熟悉 Scala、 Java、C/C++等编程语言,了解html语言
4.熟悉 Linux 操作系统,能够使用Shell脚本语言编程
5.灵活使用 MySql, Oracle, MS SQL Server 等关系数据库
6.熟悉 Cloudera Hadoop 和纯粹开源 Hadoop 版本的组件
7.有较为丰富的集群部署、开发和维护管理经验
展开
-
hive join 数据倾斜 真实案例
hive或者MR处理数据,不怕数据量大,就怕倾斜。hive里大表join的时候,数据倾斜就是个很头疼的问题。本博主就遇到了一个真实案例,特意记录下来,有需要的同学可以参考1.查了5个小时还没结束的sql语句set mapred.reduce.tasks = 30;insert overwrite directory 'xxx'selectcus.idA,cus.name,addr.bb from tableA as cusjoin tableB as addron cus.idA = a转载 2021-01-23 23:14:58 · 247 阅读 · 0 评论 -
【Hive】Hive笔记:Hive调优总结——数据倾斜,join表连接优化
数据倾斜即为数据在节点上分布不均,是常见的优化过程中常见的需要解决的问题。常见的Hive调优的方法:列剪裁、Map Join操作、 Group By操作、合并小文件。 一、表现 1.任务进度长度为99%,在任务监控页面中发现只有几个 reduce 子任务未完成; 2.单一 reduce 记录与平均记录数差异过大(大于3倍),最长时长>>平均时长; 3.job数多的,效...转载 2018-02-09 14:19:18 · 644 阅读 · 0 评论