(10)Hive的相关概念——文件格式和数据压缩

本文详细介绍了Hive中常见的文件格式(如TextFile、SequenceFile、Parquet和ORC)及其特点,以及如何通过列式和行式存储优化数据存储。同时探讨了数据压缩在Hive中的应用,包括优点、缺点以及MapReduce阶段的压缩配置和测试。
摘要由CSDN通过智能技术生成

目录

一、文件格式

1.1 列式存储和行式存储

1.1.1 行存储的特点

1.1.2 列存储的特点

1.2 TextFile

1.3 SequenceFile

1.4  Parquet

1.5 ORC

二、数据压缩 

2.1 数据压缩-概述

 2.1.1 压缩的优点

 2.1.2 压缩的缺点

2.2 Hive中压缩配置

2.2.1 开启Map输出阶段压缩(MR 引擎)

2.2.2 开启Reduce输出阶段压缩

2.3 Hive中压缩测试

一、文件格式

     Hive数据存储的本质还是HDFS,所有的数据读写都基于HDFS的文件来实现。为了提高对HDFS文件读写的性能,Hive提供了多种文件存储格式:TextFile、SequenceFile、ORC、Parquet等。不同的文件存储格式具有不同的存储特点,有的可以降低存储空间(列式存储),有的可以提高查询性能(行式存储)。Hive的文件格式在建表时指定,默认是TextFile

1.1 列式存储和行式存储

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值