文章目录
压缩的场景
这张图大概说了日志文件采集到hdfs,经过处理引擎,通过各个维度统计分析操作,输出到db的流程。
这里关于压缩和解压的步骤有:
压缩:数据采集,数据处理后
解压:hdfs到处理引擎
为什么压缩
压缩带来好处:减小网络传输,节省存储空间
缺点:耗cpu
压缩支持切片?
如果压缩文件不支持split,那么就只能以一个map task处理。注意这里的split只是争对计算而言。存储是可以切分的。
Lzo压缩如果有一个index文件,记录从哪里拆开。所以也是可以分片的。
常用压缩方式对比
这是常用压缩和其文件的后缀
Lzo压缩会多生成一个index文件,记录从哪里拆开
压缩前后大小对比
压缩比差不多都是0.5
压缩解压的耗时对比
压缩越小,往往时间越长。这是需要根据场景选择合适的压缩方式。