大数据存储格式和压缩格式的比较

存储格式

众所周知,大数据有两种存储格式:行存储、列存储,下面我们就来比较一下这两种存储格式的区别。首先来看一下两种格式的数据排列方式:

行存储数据排列
在这里插入图片描述
列存储数据排列
在这里插入图片描述

性能比较

两种存储格式都有各自的优缺点:行存储的写入是一次性完成,消耗的时间比列存储少,并且能够保证数据的完整性,缺点是数据读取过程中会产生冗余数据,如果只有少量数据,此影响可以忽略;数量大可能会影响到数据的处理效率。列存储在写入效率、保证数据完整性上都不如行存储,它的优势是在读取过程,不会产生冗余数据,这对数据完整性要求不高的大数据处理领域
在这里插入图片描述
参考:https://www.infoq.cn/article/bigdata-store-choose/

压缩格式

在使用压缩方式方面,主要考虑压缩速度压缩文件的可分割性。
下面是Hadoop 对每个压缩格式的支持:
在这里插入图片描述
性能对比
在这里插入图片描述
因此我们可以得出:

  1. Bzip2 压缩效果明显是最好的,但是 bzip2 压缩速度慢,可分割。

  2. Gzip 压缩效果不如 Bzip2,但是压缩解压速度快,不支持分割。

  3. LZO 压缩效果不如 Bzip2 和 Gzip,但是压缩解压速度最快!并且支持分割!

参考:https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-compression-analysis/

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值