Hive
WayBling
SJTU 电子系研究生 研究方向图像处理,机器视觉,人工智能
展开
-
Hive快问快答
最近工作中使用Hive,对于Hive的一些概念性知识,特别是一些Yes/No的问题,予以记录,不咎原理(有必要会另记下来),只求清晰,持续更新。Hive有索引吗?有Hive库表元信息存在哪?存在关系型数据库中,Hive通过JDBC和关系型数据库连接,默认使用derby数据库,存储于本地位置,可通过配置文件修改JDBC连接配置,从而改变和元数据存储位置。实际数据存在哪?存...原创 2018-05-19 12:07:19 · 237 阅读 · 0 评论 -
Hive中Join的原理和机制
笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。本文简单介绍一下两种join的原理和机制。Hive Common Join如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成join. 整个过程包含Ma...转载 2018-06-17 15:11:45 · 333 阅读 · 0 评论 -
Hive之COUNT DISTINCT优化
问题描述COUNT(DISTINCT xxx)在hive中很容易造成数据倾斜。针对这一情况,网上已有很多优化方法,这里不再赘述。 但有时,“数据倾斜”又几乎是必然的。我们来举个例子:假设表detail_sdk_session中记录了访问某网站M的客户端会话信息,即:如果用户A打开app客户端,则会产生一条会话信息记录在该表中,该表的粒度为“一次”会话,其中每次会话都记录了用户的唯一标示u...转载 2018-06-17 15:20:12 · 10103 阅读 · 1 评论 -
Hive CLI执行流程分析
1.启动脚本: $HIVE_HOME/bin/hive --> $HIVE_HOME/bin/ext/cli.sh 可以看到入口类org.apache.hadoop.hive.cli.CliDriver2.入口类:org.apache.hadoop.hive.cli.CliDriver(1) 参数解析OptionsProcessor( -f -hiveconf ...转载 2018-06-17 16:16:41 · 890 阅读 · 0 评论 -
HiveServer2 源码分析
1.启动脚本HIVEHOME/bin/hive−−servicehiveserver2−−>HIVEHOME/bin/hive−−servicehiveserver2−−>HIVE_HOME/bin/hive --service hiveserver2 --> HIVE_HOME/bin/ ext/hiveserver2.sh –> 可以看到入口类和 org.apache...转载 2018-06-17 16:19:01 · 1231 阅读 · 0 评论 -
Hive UDF小结
HiveUDF简介:1)Hive中用于扩展HiveSQL功能的用户自定义函数称为HiveUDF 2)UDF又分为UDAF(用户自定义聚合函数),UDTF(用户自钉子表生成函数)Hive内置函数实际上Hive内置了很多函数,包括关系/算数/逻辑操作符都属于函数hive提供的build-in函数包括以下几类: 1. 关系操作符:包括 = 、 <> 、 <= 、...原创 2018-06-17 16:37:53 · 7866 阅读 · 0 评论