Hive之配置使用snappy压缩

最新推荐文章于 2024-03-06 18:59:24 发布

TomAndersen

最新推荐文章于 2024-03-06 18:59:24 发布

阅读量3.1k

点赞数 2

分类专栏： Hive Hadoop HDFS 文章标签： hive hadoop 数据仓库

本文链接：https://blog.csdn.net/TomAndersen/article/details/106415040

版权

20 篇文章 0 订阅

订阅专栏

11 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

OS：CentOS 7
hadoop：2.7.7
hive：2.3.0
Hive中配置snappy压缩，可以分别在Mapper输出阶段和Reducer输出阶段使用压缩算法。也可以将压缩后数据文件加载到表中用于查询，Hive会通过后缀名自动识别对应的压缩格式，并在查询时进行解压，但需要保持数据文件和表格式相同，否则只会显示结果全为NULL

使用以下命令，可以查看是否有相应压缩算法的库，如果显示为false，则需要额外安装

hadoop checknative -a

PS： Hadoop 2.X版本已经集成了snappy、lz4、bzip2等压缩算法的编/解码器，会自动调用对应的本地库，而CentOS 7中自带snappy依赖库，故无需安装安装snappy依赖）

Hive中开启Map阶段输出压缩，可以减少在Hive中MR Job的Mapper和Reducer之间的网络I/O。开启此功能需要同时配置Hive和Hadoop相关参数，可以在Hive中配置，保证仅在当前会话生效，也可以直接在Hive和Hadoop的对应配置文件中修改默认参数持续生效。配置过程如下：

hive> set hive.exec.compress.intermediate=true;

hive> set mapreduce.map.output.compress=true;

hive> set mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;

当Hive将查询内容写入到表中（local/hdfs）时，输出内容同样可以进行压缩。同样需要同时配置Hive和Hadoop参数。既可以在Hive中配置，保证仅在当前会话生效，也可以直接在Hive和Hadoop的对应配置文件中修改默认参数持续生效。配置过程如下：

hive> set hive.exec.compress.output=true;

hive> set mapreduce.output.fileoutputformat.compress=true;

hive> set mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;

hive> set mapreduce.output.fileoutputformat.compress.type=BLOCK;

hive> insert overwrite local directory '/tmp/hive/data/export/' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' select * from emp;

hive> create table tmp like emp;
hive> load data local inpath '/tmp/hive/data/export/000000_0.snappy' overwrite into table tmp;

hive> select * from tmp;

关注

专栏目录