java 从 HDFS 读取数据到本地文件

场景描述
算法模型是 java 代码使用 spark-submit yarn cluster 运行的,输出结果存储在了 HDFS 上,可能因为数据结构比较复杂吧,所以没有选择将结果存储在 hive 表中。这样的话,当后期在从 HDFS 读取结果时就会遇到数据合并的问题。

比如:模型输出就是三行 json 数据。如下:


{
 "description":"desc-1","id":"1","name":"name-1"}
{
 "description":"desc-2","id":"2","name":"name-2"}
{
 "description":"desc-3","id":"3","name":"name-3"}

同时在代码中设定存储文件为 /user/deployer/people-result ,但实际存储在 HDFS 上时的目录结构是这样的:

(base) [deployer@sh01 ~]$ hadoop fs -ls /user/deployer/people-result
Found 3 items
-rw-r--r--   3 deployer supergroup          0 2022-07-05 18:44 /user/deployer/people-result/_SUCCESS
-rw-r--r--   3 deployer supergroup         50 2022-07-05 18:44 /user/deployer/people-result/part-00000-3d314ceb-5fd4-4a13-9d16-da3c838aa13f-c000.json
-rw-r--r--   3 deployer supergroup        100 2022-07-05 18:44 /user/deployer/people-result/part-00001-3d314ceb-5fd4-4a13-9d16-da3c838aa13f-c000.json

给定的存储文件会被创建成目录,数据被分散存储在该目录下的若干个 .json 文件中。

后期读取肯定需要合并数据。若手写代码合并不仅工作量大,而且也容易出错。
解决办法
java 已经提供了读取且合并的 API: FileUtil.copyMerge 。先上代码:

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.FileUtil;
import org.apache.hadoop.fs.Path;
import org.junit.jupiter.api.Test;
import org.springframework.boot.test.context.SpringBootTest;

@SpringBootTest()
public class DownloadFileFromHdfs {
 

  @Test
  public void test_download_and_merge() throws IOException {
 
    String src = "/user/deployer/people-result";
    String dst = "/Users/mac/Downloads/people-result.json";
    boolean result = copyMerge(src, dst);
    System.out.println(result);
  }

  private boolean copyMerge(String src, String dst)
      throws IOException {
 
    Configuration conf = new Configuration();
    FileSystem hdfs = FileSystem.get(conf);
    FileSystem local = FileSystem.getLocal(conf);
    final boolean result;

    try {
 
      Path srcPath = new Path(src);
      Path dstPath = new Path(dst);
      boolean deleteSource = false;
      String addString = null;
      result = FileUtil.copyMerge(hdfs, srcPath, local, dstPath, deleteSource, conf,
          addString);
    } finally {
 
      hdfs.close();
    }
    return result;
  }
}

上面的代码很简单,需要说明两点:

Configuration 类中保存了大数据集群的配置,所以需要将 core-site.xml 和 hdfs-site.xml 提前存放到 classpath 目录下,等程序启动时 xml 文件中的信息会被自动读取到配置类中。

使用时需要分清楚是从哪里读取到哪里。在上述场景中 src 是目录,dst 是文件。

结果展示

(base) ➜  Downloads cat /Users/mac/Downloads/people-result.json
{
 "description":"desc-1","id":"1","name":"name-1"}
{
 "description":"desc-2","id":"2","name":"name-2"}
{
 "description":"desc-3","id":"3","name":"name-3"}
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 要用 Java 从本地以 UTF-8 格式上传文件HDFS,可以使用 Apache Hadoop 中的 `FileSystem` 类。 以下是一个示例代码: ``` import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; // 首先需要创建 Configuration 对象,用于设置 Hadoop 的运行参数 Configuration conf = new Configuration(); // 使用 FileSystem 类的 get() 方法来获取文件系统的实例 FileSystem fs = FileSystem.get(conf); // 创建本地文件路径 Path srcPath = new Path("/path/to/local/file.txt"); // 创建 HDFS 目标路径 Path dstPath = new Path("/path/to/hdfs/file.txt"); // 使用文件系统实例的 copyFromLocalFile() 方法来将本地文件上传到 HDFS fs.copyFromLocalFile(srcPath, dstPath); // 关闭文件系统 fs.close(); ``` 注意:在运行上述代码之前,需要将 Apache Hadoop 的依赖项添加到项目中。可以在项目的 `pom.xml` 文件中添加如下依赖: ``` <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>3.3.0</version> </dependency> ``` 然后在运行代码之前,需要确保 Hadoop 环境已经正确配置,包括 Hadoop 配置文件 `core-site.xml` 和 `hdfs-site.xml`。 ### 回答2: 使用Java上传文件HDFS需要使用HadoopHDFS API,并设置上传文件的编码格式为UTF-8。以下是一个示例代码: ```java import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import java.io.File; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; public class HDFSUploader { public static void main(String[] args) { String hdfsUri = "hdfs://localhost:9000"; // HDFS的URI String localFilePath = "path/to/local/file.txt"; // 本地文件路径 String hdfsFilePath = "/path/in/hdfs/file.txt"; // HDFS文件路径 try { Configuration conf = new Configuration(); conf.set("fs.defaultFS", hdfsUri); conf.set("fs.hdfs.impl", org.apache.hadoop.hdfs.DistributedFileSystem.class.getName()); conf.set("fs.file.impl", org.apache.hadoop.fs.LocalFileSystem.class.getName()); // 获取HDFS文件系统的实例 FileSystem fs = FileSystem.get(conf); // 打开本地文件的输入流 InputStream in = new FileInputStream(new File(localFilePath)); // 创建HDFS文件的输出流 OutputStream out = fs.create(new Path(hdfsFilePath)); // 缓冲区大小 byte[] buffer = new byte[4096]; int bytesRead; while ((bytesRead = in.read(buffer)) > 0) { // 写入HDFS文件 out.write(buffer, 0, bytesRead); } // 关闭流 in.close(); out.close(); System.out.println("File uploaded successfully."); } catch (IOException e) { e.printStackTrace(); } } } ``` 在上述代码中,你需要将"hdfs://localhost:9000"替换为HDFS的正确URI。"path/to/local/file.txt"和"/path/in/hdfs/file.txt"分别是本地文件HDFS文件的路径。 ### 回答3: 下面是一个用Java从本地以UTF-8格式上传文件HDFS的示例代码: ```java import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import java.io.BufferedInputStream; import java.io.FileInputStream; import java.io.InputStream; import java.io.OutputStream; public class HDFSFileUploader { public static void main(String[] args) { String localFilePath = "/path/to/local/file.txt"; String hdfsFilePath = "/path/to/destination/file.txt"; try { // 创建配置对象 Configuration config = new Configuration(); config.set("fs.defaultFS", "hdfs://localhost:9000"); // 设置HDFS的地址 // 创建HDFS文件系统实例 FileSystem fs = FileSystem.get(config); // 打开本地文件输入流 InputStream in = new BufferedInputStream(new FileInputStream(localFilePath)); // 创建HDFS文件输出流 OutputStream out = fs.create(new Path(hdfsFilePath), true); // 定义缓冲区大小 byte[] buffer = new byte[4096]; int bytesRead; // 读取本地文件并写入HDFS文件 while ((bytesRead = in.read(buffer)) > 0) { out.write(buffer, 0, bytesRead); } // 关闭流 in.close(); out.close(); System.out.println("文件上传完成。"); } catch (Exception e) { e.printStackTrace(); } } } ``` 在上面的代码中,我们首先创建一个`Configuration`对象,并将HDFS的地址设置为`fs.defaultFS`。然后通过`FileSystem.get(config)`方法获取HDFS文件系统实例。接下来,我们打开本地文件输入流,同时创建HDFS文件输出流。然后,我们使用一个循环读取本地文件并将数据写入HDFS文件,直到文件读取完毕。最后,我们关闭输入流和输出流,并打印出文件上传完成的消息。 请注意,你需要根据你的实际情况修改`localFilePath`和`hdfsFilePath`变量的值,以及`fs.defaultFS`的地址。此外,你还需要确保你的项目中包含`hadoop-common`和`hadoop-hdfs`这两个库的依赖。 希望这可以帮助到你!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值