大数据中的压缩

本文探讨了大数据场景中压缩的重要性,分析了压缩的优缺点,特别是对于网络传输和存储空间的节省。文中提到,选择是否支持切片的压缩方式会影响处理效率。LZO压缩在有index文件的情况下可以支持分片。文章比较了不同压缩方式的压缩率和耗时,并提供了选择压缩方式的指导,考虑场景如数据采集、MapReduce阶段和存储。此外,还详细介绍了配置Hadoop和Hive压缩的方法,以实现更高效的数据处理。
摘要由CSDN通过智能技术生成

压缩的场景

在这里插入图片描述
这张图大概说了日志文件采集到hdfs,经过处理引擎,通过各个维度统计分析操作,输出到db的流程。

这里关于压缩和解压的步骤有:
压缩:数据采集,数据处理后
解压:hdfs到处理引擎

为什么压缩

压缩带来好处:减小网络传输,节省存储空间
缺点:耗cpu

压缩支持切片?

如果压缩文件不支持split,那么就只能以一个map task处理。注意这里的split只是争对计算而言。存储是可以切分的。

在这里插入图片描述Lzo压缩如果有一个index文件,记录从哪里拆开。所以也是可以分片的。

常用压缩方式对比

这是常用压缩和其文件的后缀
在这里插入图片描述Lzo压缩会多生成一个index文件,记录从哪里拆开

压缩前后大小对比

压缩比差不多都是0.5
在这里插入图片描述

压缩解压的耗时对比

在这里插入图片描述
压缩越小,往往时间越长。这是需要根据场景选择合适的压缩方式。

压缩依赖的包

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值