![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
pucheung
这个作者很懒,什么都没留下…
展开
-
hive命令总结
1 . show databases; 2 . use databasename; //use default3.show tables;4. describe tablename;//describe user5. create table user(id int,name string); //最简单的创建表 drop table tablename; //删除表6原创 2016-01-28 14:28:38 · 460 阅读 · 0 评论 -
hive的insert
insert 语法格式为:1. 基本的插入语法:insert overwrite table tablename [partition(partcol1=val1,partclo2=val2)] select_statement;insert into table tablename [partition(partcol1=val1,partclo2=val2)转载 2016-01-28 14:30:17 · 1141 阅读 · 0 评论 -
hive的join操作
Syntax join_table: table_reference JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition | table_reference LEFT SEMI JOIN table_reference转载 2016-01-28 15:09:37 · 241 阅读 · 0 评论 -
Hive 基础之:分区、桶、Sort Merge Bucket Join
Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个 Hadoop/Hive/DW RD 必须掌握的部分,之前也有几篇文章聊到过 MR/Hive 中的 join,其实转载 2016-08-31 19:59:09 · 980 阅读 · 0 评论 -
hive优化之-控制hive任务中的map数和reduce数
1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文转载 2016-08-31 22:40:42 · 2759 阅读 · 0 评论 -
hive数据倾斜
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的转载 2018-01-10 20:37:05 · 453 阅读 · 0 评论