hive 表存储大小_Hive中文件存储格式及大小比较测试

本文介绍了在Hive中创建表的语句,并详细比较了不同存储格式如SEQUENCEFILE、TEXTFILE、RCFILE、ORC和PARQUET的性能和大小。特别强调了PARQUET作为列式存储格式在数据压缩和分析速度上的优势,通过创建和加载数据的步骤展示了ORC和Parquet文件相对于文本文件的大小差异,并执行SQL语句测试了执行速度。
摘要由CSDN通过智能技术生成

在hive中创建表是有如下一个语句

[ROW FORMAT row_format]

row_format 的类型有如下:

file_format:

: SEQUENCEFILE

| TEXTFILE -- (Default, depending on hive.default.fileformat configuration)

| RCFILE -- (Note: Available in Hive 0.6.0 and later)

| ORC -- (Note: Available in Hive 0.11.0 and later)

| PARQUET -- (Note: Available in Hive 0.13.0 and later)

| AVRO -- (Note: Available in Hive 0.14.0 and later)

| INPUTFORMAT input_format_classname OUTPUTFORMAT output_format_classname

默认是文本格式例如:

e8e965654c71

按照数据存储方式分类

按照行存储

SEQUENCEFILE

TEXTFILE

按照列存储

RCFILE

ORC

PARQUET

说明:parquet目前已经是apache的顶级项目了,在hive,hbase,spark中都是经常使用的。

e8e965654c71

e8e965654c71

e8e965654c71

e8e965654c71

e8e965654c71

e8e965654c71

文件格式的压缩比较

e8e965654c71

实际业务我们是按照列来分析数据及使用数据的。

1、创建文本表

e8e965654c71

2、加载数据

e8e965654c71

image.png

e8e965654c71

3、查看创建OCR文件的格式

e8e965654c71

4、创建ocr文件

e8e965654c71

5、把文件表中的数据插入到OCR类型的表中

e8e965654c71

6、创建parquet类型的表并插入数据

e8e965654c71

7、查看文件大小

原始文本文件的大小

e8e965654c71

orc文件大小

e8e965654c71

partquet文件大小

e8e965654c71

执行sql语句测试执行速度

e8e965654c71

e8e965654c71

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值