Hive
strongyoung88
记录学习点滴,勇攀技术高峰!
GitBook地址
/<a href="https://www.gitbook.com/@strongyoung">Qiang Yang/</a>
展开
-
Hive中Map任务和Reduce任务数量计算原理
Hive中Map任务和Reduce任务数计算原理MapReduce原理Map阶段(以FileInputFormat为例)步骤:map, partition, sort, combinerInputFormat负责计算分片,一个分片对应一个Map任务,InputFormat而且还负责创建RecordReader,通过RecordReader的next()方法,然后循环调用map()方法...原创 2020-04-30 16:37:19 · 3376 阅读 · 0 评论 -
Hive的设计与架构
本文包含Hive的设计与架构的详细信息,具体内容如下:Hive架构Hive数据模型元数据 Motivation元数据对象元数据架构元数据接口Hive查询语言(HIveQL)编译器优化器Hive APIsHive 架构图中展示了Hive的主要组成部分,以及与Hadoop的交互,如图所述,Hive的主要组件有:UI – 提供给用户的接口,用于对系统提交查询...翻译 2019-12-14 10:38:03 · 579 阅读 · 0 评论 -
Hive数据倾斜解决思路
Hive数据倾斜总结发生倾斜的根本原因在于,shuffle之后,key的分布不均匀,使得大量的key集中在某个reduce节点,导致此节点过于“忙碌”,在其他节点都处理完之后,任务的结整需要等待此节点处理完,使得整个任务被此节点堵塞,要解决此问题,主要可以分为两大块:一是尽量不shuffle;二是shuffle之后,在reduce节点上的key分布尽量均匀。倾斜探查join key倾斜se...原创 2019-09-10 21:02:56 · 2263 阅读 · 0 评论 -
Mac系统搭建Hive源码远程调试环境
环境准备JDK这个一定需要,不管是Hadoop,还是Hive的运行,都依赖这个。HadoopHadoop的安装比较简单,从官网下载一个包,解压,然后配置几个核心的xml就可以了。Hive源码从官网下载一个Hive的源码包,我下载的是3.1.1Intellij IDEA建议下载community版Maven编译Hive源码时需要启动Hadoop切换到Hadoop的安装目录...原创 2019-03-03 14:29:14 · 908 阅读 · 0 评论 -
Hive中的Predicate Pushdown Rules(谓词下推规则)
谓词下推概念谓词下推 Predicate Pushdown(PPD):简而言之,就是在不影响结果的情况下,尽量将过滤条件提前执行。谓词下推后,过滤条件在map端执行,减少了map端的输出,降低了数据在集群上传输的量,节约了集群的资源,也提升了任务的性能。PPD 配置PPD控制参数:hive.optimize.ppd Default Value: true Added ...原创 2018-07-22 19:48:21 · 12574 阅读 · 4 评论 -
Hive 异常情况
FAILED: Execution Error, return code -101 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask. GC overhead limit exxceeded2018-01-08 21:35:44 End of local task; Time Taken: 1.155 sec.Execution co原创 2018-01-09 15:23:37 · 1603 阅读 · 0 评论 -
Hive 教程(官方Tutorial)
Hive是一个基于Apache Hadoop的数据仓库。对于数据存储与处理,Hadoop提供了主要的扩展和容错能力。Hive设计的初衷是:对于大量的数据,使得数据汇总,查询和分析更加简单。它提供了SQL,允许用户更加简单地进行查询,汇总和数据分析。同时,Hive的SQL给予了用户多种方式来集成自己的功能,然后做定制化的查询,例如用户自定义函数(User Defined Functions,UDFs).翻译 2016-12-19 17:06:42 · 76675 阅读 · 5 评论 -
Hive DML操作
Hive 数据操纵语言(DML)操作翻译 2016-12-16 09:55:03 · 2661 阅读 · 0 评论 -
Hive安装与配置
Hive的安装与配置原创 2016-11-02 14:54:13 · 932 阅读 · 0 评论