控制速度 xml_BZip2Codec压缩、Reduce端压缩控制……Hadoop整合压缩知识点来了

weixin_39777497

于 2021-01-03 05:43:10 发布

阅读量152

点赞数

文章标签：控制速度 xml

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39777497/article/details/112661663

版权

作者 | Tai_Park

责编 | Carol

来源 | CSDN 博客

封图 | CSDN付费下载于东方 IC

今天来聊聊 Hadoop 的压缩。

压缩：原始数据通过压缩手段产生目标数据，要求输入和输出的内容是一样的(大部分)，但体积是不一样的。

对于单机用户来说，磁盘空间的限制导致了文件压缩的需求；对于Hadoop用户来说，由于DataNode的限制，也要对HDFS上的数据进行压缩。压缩的目的是减少存储在HDFS上的数据所占用的空间(磁盘的角度)，提升网络的传输效率(网络的角度)。对于分布式计算框架来说，Shuffle是一个主要的技术瓶颈。

大数据处理流程基本上是输入==>处理==>输出，举例来说，在离线处理方面，Spark可以HDFS==>Spark==>HDFS，在实时处理方面，Spark Streaming可以Kafka==>Spark Streaming==>RDBMS。压缩可以使用在输入时，也可以使用在处理时(比如map作为中间状态，它的输出可以压缩以减少Shuffle的量)，输出时。

最低0.47元/天解锁文章

weixin_39777497

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
控制速度 xml_BZip2Codec压缩、Reduce端压缩控制……Hadoop整合压缩知识点来了

作者 | Tai_Park责编 | Carol来源 | CSDN 博客封图 | CSDN付费下载于东方 IC今天来聊聊 Hadoop 的压缩。压缩：原始数据通过压缩手段产生目标数据，要求输入和输出的内容是一样的(大部分)，但体积是不一样的。对于单机用户来说，磁盘空间的限制导致了文件压缩的需求；对于Hadoop用户来说，由于DataNode的限制，也要对HDFS上的数据进行压缩。压缩的目的是减少存储...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。