Hive Parquet配置

parquet的配置主要包括:

parquet.compression

parquet.block.size

parquet.page.size

等,详见:

https://github.com/Parquet/parquet-mr/blob/master/parquet-hadoop/src/main/java/parquet/hadoop/ParquetOutputFormat.java

这些配置在Hive里面直接set就好,比如:

set parquet.compression=snappy

但是block size比较难设置。


首先,关于parquet的数据格式:

https://github.com/Parquet/parquet-format

block size对应于row group size的,但是由不完全是同一个东西,

block size是grow group在内存中的buffer size,实际写到磁盘之后,并没有这么大。比如我就遇到,block size设置为512MB,然后通过metadata去读block size只有100多MB。

而且在hive中,如果你是通过另外一张表,通过insert into/overwrite .... select....来创建parquet的话,光设置parquet.block.size是没用的,还需要保证hive的split size够大:

http://blog.javachen.com/2013/09/04/how-to-decide-map-number/

http://blog.csdn.net/moon_yang_bj/article/details/17901371

也就是说,parquet.block.size、dfs.block.size(hadoop 2.x 中是dfs.blocksize)、mapred.max.split.size都要设大才行。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值