配置spark 之前有个前提,就是hadoop snappy 安装成功,检验方法在我上一篇博客有(https://blog.csdn.net/qq_34394465/article/details/85064406)
接下来 添加 spark snappy 依赖包
vim /data/soft/spark-2.1.0-bin-hadoop2.7/conf/spark-defaults.conf
spark.driver.extraClassPath /data/soft/hadoop-2.7.3/share/hadoop/common/hadoop-common-2.7.3.jar
spark.driver.extraLibraryPath /data/soft/hadoop-2.7.3/lib/native
spark.executor.extraClassPath /data/soft/hadoop-2.7.3/share/hadoop/common/hadoop-common-2.7.3.jar
spark.executor.extraLibraryPath /data/soft/hadoop-2.7.3/lib/native
好了,接下来 新启的任务就可以使用snappy了
可能有人会问,不用配启用配置吗,这是因为spark 默认压缩格式就是snappy,启用配置是默认启用,所以检测到hadoop snappy 配置,会自动启用(rdd 输出压缩是默认不开启的,如果有需要需要自己配,前提是hadoop map 输出压缩必须先开启)
添加map输出压缩配置,在 hadoop map