Spark 把RDD数据保存到hdfs单个文件中，而不是目录

weixin_34162695

于 2017-06-28 17:47:00 发布

阅读量2.5k

点赞数

文章标签：大数据 java python

原文链接：http://www.cnblogs.com/xiaoma0529/p/7090912.html

版权

本文探讨了在Spark中如何将RDD数据保存到HDFS上的单个文件，而不是创建一个目录。通常，Spark的`saveAsTextFile`会生成一个目录并包含多个分块文件。为了解决这个问题，可以通过设置分区数为1，但结果仍会在目录下生成`part-00000`文件。要直接将数据保存为单独的文件，可以利用Hadoop的`FileSystem`API，重分区数据并将其写入已有的目录。

摘要由CSDN通过智能技术生成

相比于Hadoop，Spark在数据的处理方面更加灵活方便。然而在最近的使用中遇到了一点小麻烦：Spark保存文件的的函数（如saveAsTextFile）在保存数据时都需要新建一个目录，然后在这个目录下分块保存文件。如果我们想在原有的目录下增加一个文件（而不是增加一个目录）

rddx.repartition(1).saveAsTextFile("test/test.txt")
rddx.coalesce(1).saveAsTextFile("test/test.txt")

把分区设置成1个结果是Spark仍然是新建了一个目录test.txt，然后在这个目录下把数据都保存在了part-00000文件中

问题:如何让spark将Rdd结果输出到一个文件而不是目录中呢？

Spark的保存模式的设定注定了在保存数据的时候只能新建目录，如果想把数据增加到原有的目录中，单独作为一个文件，就只能借助于hadoop的HDFS操作。下面的例子演示如何用Hadoop的FileSystem实现在已有目录下用一个文件保存Spark数据：

package com.ys.penspark.util;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.io.BufferedWriter;
import java.io.OutputStreamWriter;
import java.io.Serializable;
import java.net.URI;

/**
 * @ClassName: HdfsOperate
 * @Description:
 * @Author: Administrator
 * @Date: 2017/6/28
 */
public class HdfsOperate implements Serializable {
    private static Logger logger = LoggerFactory.

最低0.47元/天解锁文章

weixin_34162695

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark 把RDD数据保存到hdfs单个文件中，而不是目录

相比于Hadoop，Spark在数据的处理方面更加灵活方便。然而在最近的使用中遇到了一点小麻烦：Spark保存文件的的函数（如saveAsTextFile）在保存数据时都需要新建一个目录，然后在这个目录下分块保存文件。如果我们想在原有的目录下增加一个文件（而不是增加一个目录）rddx.repartition(1).saveAsTextFile("test/test.txt")rd...
复制链接

扫一扫