Hive0.13以后的版本
创建存储格式为parquet的hive表:
CREATE TABLE parquet_test (
id int,
str string,
mp MAP<STRING,STRING>,
lst ARRAY<STRING>,
strct STRUCT<A:STRING,B:STRING>)
PARTITIONED BY (part string)
STORED AS PARQUET;
指定parquet写文件的压缩编码方式:
支持类型:uncompressed", "snappy", "gzip", "lzo"。
Snappy压缩具有更好的性能,Gzip压缩具有更好的压缩比。
hive中支持对parquet的配置,主要有:
parquet.compression
parquet.block.size
parquet.page.size
可以在Hive中直接set:
hive> set parquet.compression=snappy
可以修改Hive属性:
ALTER TABLE parquet_test SET TBLPROPERTIES ('parquet.compression'='snappy');
控制Hive的block大小的参数:
parquet.block.size
dfs.blocksize
mapred.max.split.size