hive入门学习
文章平均质量分 85
我学习hive的一些简单记录
东纪元
这个作者很懒,什么都没留下…
展开
-
hive 数据仓库之拉链表
先去看这篇文章:https://www.cnblogs.com/lxbmaomao/p/9821128.html然后重点是这部分(从文章开头看到下面我截图这部分就行):首先,下面的user表没有用到。。而且貌似也没有用,文章中为什么要user表我也搞不懂。。明明user的拉链表可以就包含了user全量表的数据了。。由于hdfs和hive的底层因素,不支持修改...转载 2020-01-28 14:57:50 · 480 阅读 · 0 评论 -
hive sql 窗口函数与group by一起用
表结构CREATE TABLE `bigtable`(`id` bigint,`time` bigint,`uid` string,`keyword` string,`url_rank` int,`click_num` int,`click_url` string)ROW FORMAT DELIMITEDFIELDS TERMINATED BY '\t';...原创 2019-11-25 17:22:13 · 7846 阅读 · 0 评论 -
hive性能调优
1、fetch抓取(可配置,默认开启)简单的select筛选查询不启动mapreduce。。直接查2、小表与大表关联使用map join(默认开启),每个map task把小表数据全部下载到内存中,然后与大表分片数据进行关联。。避免在reducer端关联造成数据倾斜。3、大表与大表关联(1)空key处理:《1》当空key对应的行数据都是异常垃圾数据,那么在关联是先使用子查询...原创 2019-11-07 19:41:08 · 164 阅读 · 0 评论 -
hive join的优化
CommonJoin最为普通的join策略,不受数据量的大小影响,也可以叫做reduce side join ,最没效率的一种join方式. 它由一个mapreduce job完成.首先将大表和小表分别进行map 操作, 在map shuffle 的阶段每一个mapoutput key 变成了table_name_tag_prefix + join_column_value , 但...转载 2019-11-07 18:01:40 · 451 阅读 · 0 评论 -
hive 建表,分桶表(clustered by)、分桶且桶内排序(clustered by+sorted by)、分区表(partitioned by)、分区分桶一起用
一、分桶表1、建表语句create table test_bucket_sorted (id int comment 'ID', name string comment '名字')comment '测试分桶'clustered by(id) sorted by (id) into 4 bucketsROW FORMAT DELIMITED FIELDS TERMINATED ...原创 2019-10-31 20:21:48 · 19760 阅读 · 2 评论