snappy on spark

最新推荐文章于 2024-03-25 17:08:23 发布

假装勤奋

最新推荐文章于 2024-03-25 17:08:23 发布

阅读量1.3k

点赞数 2

分类专栏： spark 文章标签： spark hadoop snappy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34394465/article/details/85244810

版权

在确保Hadoop Snappy已安装的基础上，通过编辑spark-defaults.conf文件添加Spark Snappy依赖。Spark默认压缩格式为Snappy，因此配置后新任务可直接使用。若需启用Map输出压缩，需在hadoop mapred-site.xml中配置，并使用hadoop dfsadmin -refreshNodes同步到所有节点。注意，Spark RDD输出压缩可能导致某些组件解压缩问题，如Druid。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

配置spark 之前有个前提，就是hadoop snappy 安装成功，检验方法在我上一篇博客有（https://blog.csdn.net/qq_34394465/article/details/85064406）

接下来添加 spark snappy 依赖包

vim /data/soft/spark-2.1.0-bin-hadoop2.7/conf/spark-defaults.conf

spark.driver.extraClassPath /data/soft/hadoop-2.7.3/share/hadoop/common/hadoop-common-2.7.3.jar

spark.driver.extraLibraryPath /data/soft/hadoop-2.7.3/lib/native

spark.executor.extraClassPath /data/soft/hadoop-2.7.3/share/hadoop/common/hadoop-common-2.7.3.jar

spark.executor.extraLibraryPath /data/soft/hadoop-2.7.3/lib/native

好了，接下来新启的任务就可以使用snappy了

可能有人会问，不用配启用配置吗，这是因为spark 默认压缩格式就是snappy，启用配置是默认启用，所以检测到hadoop snappy 配置，会自动启用（rdd 输出压缩是默认不开启的，如果有需要需要自己配，前提是hadoop map 输出压缩必须先开启）

添加map输出压缩配置，在 hadoop map

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。