Hive中分桶及抽样查询

本文详细介绍了Hive中的分桶表概念和创建方法,包括通过直接导入数据和子查询导入的方式,并展示了如何设置属性以实现正确分桶。此外,还探讨了分桶抽样查询的用法,以及数据块抽样的概念,提供了抽样查询的示例。
摘要由CSDN通过智能技术生成

1.分桶表

分桶表数据存储

          分区针对的是数据的存储路径;分桶针对的是数据文件
         分区提供一个隔离数据和优化查询的便利方式。不过,并非所有的数据集都可形成合理的分区,特别是之前所提到过的要确定合适的划分大小这个疑虑。
         分桶是将数据集分解成更容易管理的若干部分的另一个技术

数据准备

student.txt



  • 1001        ss1
     


  • 1002        ss2
     


  • 1003        ss3
     


  • 1004        ss4
     


  • 1005        ss5
     


  • 1006        ss6
     


  • 1007        ss7
     


  • 1008        ss8
     


  • 1009        ss9
     


  • 1010        ss10
     


  • 1011        ss11
     


  • 1012        ss12
     


  • 1013        ss13
     


  • 1014        ss14
     


  • 1015        ss15
     


  • 1016        ss16

     

1)先创建分桶表,通过

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值