aws 云上的 spark standalone 模式下,hadoop集群的core-site.xml有:
<property><name>io.compression.codec.lzo.class</name>
<value>com.hadoop.compression.lzo.LzoCodec</value></property>
spark on yarn会默认使用集群的编码方式,但是相关的jar包不会自动的添加,需要自己配置,
在 $spark_home/conf/spark-env.sh ,添加 hadoop-lzo.jar(具体路径依据具体情况改变):
export SPARK_CLASSPATH=$SPARK_CLASSPATH:/home/hadoop/share/hadoop/common/lib/hadoop-lzo.jar
或者,在spark-submit 时:
./spark-submit with --driver-class-path to augment the driver classpath