![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
Simon_Sun_1984
计算机专业,毕业荒废,三十而立,重拾旧业。
展开
-
Hive性能优化
1.概述 本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。 2.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce转载 2017-07-14 15:14:14 · 337 阅读 · 0 评论 -
map和reduce 个数的设定 (Hive优化)经典
一、 控制hive任务中的map数: 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改); 举例: a) 假设input目录下有1个文件a,大小为780M,那么...转载 2018-03-14 15:53:11 · 299 阅读 · 0 评论 -
hive优化十大原则
hive之于数据民工,就如同锄头之于农民伯伯。hive用的好,才能从地里(数据库)里挖出更多的数据来。 用过hive的朋友,我想或多或少都有类似的经历:一天下来,没跑几次hive,就到下班时间了。 hive在极大数据或者数据不平衡等情况下,表现往往一般,因此也出现了presto、spark-sql等替代品。今天不谈其它,就来说说关于hive,个人的一点心得。 一. 表连接优化 将大表放...转载 2018-03-27 10:15:02 · 358 阅读 · 0 评论