1. distributed by
2. 使用hdfs中归档功能
对于
HDFS
中有大量小文件的表,可以通过
Hadoop
归档(
Hadoop
archive
)的方式将文件归并成几个较大的文件。归并后的分区会先创建一个
data.har
目录,里面包含两部分内容:索引(
_index
和
_masterindex
)和数据
(
part-*
)。其中,索引记录归并前的文件在归并后的所在位置。
Hive数据归档后并不会对数据进行压缩。下面是启用数据归档的例子,代码如下:
--启用数据归档 set hive.archive.enabled=true;
set hive.archive.har.parentdir.settable=true;
--归档后的最大文件大小
set har.partfile.size=1099511627776;
--对分区执行归档的命令
alter table tablename archive partition(partition_col=partition_val)
--将归档的分区还原成原来的普通分区 alter table tablename unarchive partition(partition_col=partition_val)