![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
路边草随风
这个作者很懒,什么都没留下…
展开
-
spark自定义多层路径输出问题
一般来说,spark输出到HDFS的代码如下: saveAsHadoopFile(outputPath,NullWritable.class, String.class,ManyFileFormat.class); 输出文件到目录outputPath下,只有一层,RDD的分区数多少输出文件数量也就多少,输出前也可以按照需要控制一下分区数(repartition(xx))进而控制输出文件数 ...原创 2019-01-22 20:41:34 · 422 阅读 · 0 评论 -
spark 1.6.3 hadoop2.x版本下读取海量压缩文件跳过无法解压文件的问题
在spark业务处理过程中,读取HDFS的数据一般使用textFile(inputPath),inputPath目录下可以使各种格式的文本,也可以是gz格式的压缩文件。 使用textFile读取HDFS上inputPath目录下得文件时,如果是gz格式,spark默认解压读取。在大数据处理中,一般textFile读取目录下的文件数比较多,几万到几十万都很平常。 假如该目录下有几万到几十万个gz...原创 2019-01-22 23:57:35 · 498 阅读 · 0 评论