hive
飞鸟zjs
这个作者很懒,什么都没留下…
展开
-
如何设置hive与hbase同步
hive和hbase同步https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration1、把hive-hbase-handler-1.2.1.jar cp到hbase/lib 下同时把hbase中的所有的jar,cp到hive/lib2、在hive的配置文件增加属性:hive.site.xmlhb原创 2015-08-30 14:03:28 · 1278 阅读 · 1 评论 -
Hive SQL执行计划深度解析
阅读目录1.1 Join的实现原理1.2 Group By的实现原理1.3 Distinct的实现原理2.1 Phase1 SQL词法,语法解析2.2 Phase2 SQL基本组成单元QueryBlock2.3 Phase3 逻辑操作符Operator2.4 Phase4 逻辑层优化器2.5 Phase5 OperatorTree生成MapReduce Job的过程2.6 Phase6 物转载 2015-08-21 15:09:46 · 837 阅读 · 0 评论 -
深入浅出数据仓库中SQL性能优化之Hive篇
一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,Reduce,Spill,Shuffle,Sort等多个阶段,所以针对Hive查询的优化可以大致分为针对MR中单个步骤的优化(其中又会有细分),针对MR全局的优化,和针对整个查询(多MR Job)的优化,下文会分别阐述。 在开始之前,先把MR的流程图帖出来(摘自Hadoop权威指南转载 2015-08-23 13:54:10 · 292 阅读 · 0 评论 -
hive优化
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时转载 2015-08-23 13:59:03 · 245 阅读 · 0 评论 -
Hive SQL的编译过程
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有转载 2015-10-15 16:41:47 · 650 阅读 · 0 评论