Hive-3 分区和分桶

本文详细介绍了Hive的分区和分桶概念,旨在提高数据处理效率。分区通过将大数据划分为小部分,便于快速分析。静态分区需手动指定分区字段值,而动态分区则能自动分配。分桶是对数据的进一步细化,相同属性值的数据会被放入相同桶中,有助于提高查询效率和实现更高效的采样。创建分桶表需开启相关属性并设置reduce个数,使用tablesample语句可以对分桶表进行抽样查询。
摘要由CSDN通过智能技术生成

Hive分区

分区的目的:将大的数据分割成小数据,减少分析时的扫描量,提高效率。如:可以将数据按天分区,每天分析前一天的数据。
在这里插入图片描述

  • 创建分区表语法
    分区字段不能和表中字段重复
 create table score(s_id string, c_id string, s_score int) 
 partitioned by (month string) 
 row format delimited fields terminated by '\t';
  • 创建一个表带多个分区
create table score2 (s_id string,c_id string, s_score int) 
partitioned by (year string, month string, day string) 
row format delimited fields terminated by '\t';
  • 加载数据到分区表中去
load data local inpath '/hivedatas/score.csv' into table score 
partition (month='201806');;
  • 加载数据到多分区表中去
load data local inpath '/hivedatas/score.csv' into table score2 partition(year='2018', 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值