分区表和分桶表区别

披星戴月的蝈蝈

于 2024-04-13 20:48:33 发布

阅读量535

点赞数 14

分类专栏： hadoop面试题文章标签： hadoop hive 大数据

本文链接：https://blog.csdn.net/m0_46754380/article/details/137724789

版权

hadoop面试题专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文介绍了在创建HDFS表时，分区表（partitionedby）和分桶表（clusteredby）的区别与注意事项。分区表通过指定分区字段提高查询速度，而分桶表则用于特定操作的性能优化。两者在文件组织和数据加载上有所差异，不建议直接在根路径下操作。

摘要由CSDN通过智能技术生成

分区表
创建表的时候使用关键字: partition by (分区字段名分区字段类型)
分区字段名注意事项: 是一个新的字段,需要指定类型,且不能和其他字段重名
分区表好处: 使用分区字段作为条件的时候,底层直接找到对应的分区目录,能够避免全表扫描,提升查询效率
分区表最直接的效果: 在hfds表目录下,分成多个分区目录(year=xxxx,month=xx,day=xx)
不建议直接上传文件在hdfs表根路径下: 分区表直接不能识别对应文件中数据,因为分区表会找分区目录下的数据文件
使用load方式加载hdfs中文件: 本质是移动文件到对应分区目录下
分桶表
创建表的时候使用关键字: clustered by (分桶字段名) into 桶数量 buckets
分桶字段名注意事项: 是指定一个已存在的字段,不需要指定类型
分桶表好处: 使用分桶字段做抽样等特定操作的时候,也能提升性能效率
分桶表最直接的效果: 在hdfs表目录或者分区目录下,分成多个分桶文件(000000_0,000001_0,000002_0…)
不建议直接上传文件在hdfs表根路径下: 分桶表可以识别对应文件中数据,但是并没有分桶效果,也是不建议的
使用load方式加载hdfs中文件: 本质是复制数据到各个分桶文件中