spark读取hdfs上的lzo文件

最新推荐文章于 2023-05-08 20:17:49 发布

烟鬼来zzz

最新推荐文章于 2023-05-08 20:17:49 发布

阅读量1.3k

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/weixin_41895847/article/details/102460471

版权

spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

sparkContextManager.setSparkConf("spark.serializer", "org.apache.spark.serializer.KryoSerializer");
sparkContextManager.setSparkConf("io.compression.codecs", "org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,com.hadoop.compression.lzo.LzopCodec");
sparkContextManager.setSparkConf("io.compression.codec.lzo.class", "com.hadoop.compression.lzo.LzoCodec");

sparkContextManager.setSparkConf("lzo.text.input.format.ignore.nonlzo","false");

然后再将路径写入用textfile（）去读就行了

JavaSparkContext jsc = new JavaSparkContext(spark.sparkContext());

JavaRDD<String> strRdd = jsc.textFile(filePath,100);

不需要再用

sc.newAPIHadoopFile(this.inputPath, LzoTextInputFormat.class,
        LongWritable.class, Text.class, hadoopConfiguration);

这样去读了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

烟鬼来zzz

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
spark读取hdfs上的lzo文件

sparkContextManager.setSparkConf("spark.serializer", "org.apache.spark.serializer.KryoSerializer");sparkContextManager.setSparkConf("io.compression.codecs", "org.apache.hadoop.io.compress.DefaultCod...
复制链接

扫一扫