hive研究
文章平均质量分 57
秋韩
这个作者很懒,什么都没留下…
展开
-
hive 子查询特别分析
Hive只支持在FROM子句中使用子查询,子查询必须有名字,并且列必须唯一:SELECT ... FROM(subquery) name ...确认下是否一定要求列必须唯一?原创 2013-07-30 17:17:16 · 27630 阅读 · 3 评论 -
overwrite在hive内部表及外部表特性
overwrite在hive内部表及外部表特性。overwrite即为重写的意思, 指定了OVERWRITE,会有以下效果:•目标表(或者分区)中的内容(如果有)会被删除,然后再将 filepath 指向的文件/目录中的内容添加到表/分区中。 •如果目标表(分区)已经有一个文件,并且文件名和 filepath 中的文件名冲突,那么现有的文件会被新文件所替代。原创 2013-07-30 11:27:42 · 20762 阅读 · 4 评论 -
深入浅出hive-hive简介
•Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。•本质是将HQL转换为MapReduce程序 2. 为什么使用hive原创 2013-07-30 15:00:27 · 1305 阅读 · 0 评论 -
hive 桶相关特性分析
桶(bucket)是指将表或分区中指定列的值为key进行hash,hash到指定的桶中,这样可以支持高效采样工作。 抽样(sampling)可以在全体数据上进行采样,这样效率自然就低,它还是要去访问所有数据。而如果一个表已经对某一列制作了bucket,就可以采样所有桶中指定序号的某个桶,这就减少了访问量。原创 2013-08-02 09:44:39 · 7036 阅读 · 2 评论 -
Skew Join与Left Semi Join相关
Skew Join真实数据中数据倾斜是一定的, hadoop 中默认是使用hive.exec.reducers.bytes.per.reducer = 1000000000也就是每个节点的reduce 默认是处理1G大小的数据,如果你的join 操作也产生了数据倾斜,那么你可以在hive 中设定set hive.optimize.skewjoin =原创 2013-08-02 10:21:32 · 3154 阅读 · 0 评论 -
查看hive表详细
有些时候,我们需要查看hive表的详细,下面做一些关于hive表的查看表详细信息的方法:desc extended tablename;原创 2013-07-29 15:13:56 · 11731 阅读 · 0 评论 -
hive 排序特性研究
所谓排序就是使一串记录,按照其中的某个或某些关键字,递增或是递减的排列。原创 2013-08-06 09:17:45 · 5265 阅读 · 1 评论