用java程序把本地的一个文件拷贝到hdfs上并显示进度

本文介绍了如何在Linux环境下将本地程序打包为jar包,并利用Hadoop进行分布式计算。包括代码实现、路径异常处理及错误提示解释。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

把程序打成jar包放到Linux上
转到目录下执行命令 hadoop jar mapreducer.jar /home/clq/export/java/count.jar  hdfs://ubuntu:9000/out06/count/
上面一个是本地文件,一个是上传hdfs位置

成功后出现:打印出来,你所要打印的字符。

package com.clq.hdfs;

import java.io.BufferedInputStream;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.URI;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.util.Progressable;

public class FileCopyWithProgress {
//********************************
//把本地的一个文件拷贝到hdfs上
//********************************
	public static void main(String[] args) throws IOException {
		String localSrc = args[0];
		String dst = args[1];
		InputStream in = new BufferedInputStream(new FileInputStream(localSrc));
		Configuration conf = new Configuration();
		FileSystem fs = FileSystem.get(URI.create(dst), conf);
		FSDataOutputStream out = fs.create(new Path(dst), new Progressable() {
			@Override
			public void progress() {
				System.out.print(".");
			}
		});
		IOUtils.copyBytes(in, out, conf, true);
	}

}

可能出现异常:
Exception in thread "main" org.apache.hadoop.ipc.RemoteException: java.io.IOException: Cannot create /out06; already exists as a directory
        at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFileInternal(FSNamesystem.java:1569)
        at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFile(FSNamesystem.java:1527)
        at org.apache.hadoop.hdfs.server.namenode.NameNode.create(NameNode.java:710)
        at org.apache.hadoop.hdfs.server.namenode.NameNode.create(NameNode.java:689)
        at sun.reflect.GeneratedMethodAccessor7.invoke(Unknown Source)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:606)
        at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:587)
        at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1432)
        at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1428)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:415)
说明你这个路径在hdfs上已经存在,换一个即可。
<think>好的,我需要帮助用户获取HDFS文件的完整Java代码示例。首先,我需要回忆HDFSJava API相关知识,特别是如何连接HDFS、处理文件流以及合文件的方法。 用户提到需要创建Hadoop配置对象和文件系统对象,所以首先应该通过Configuration类加载默认配置,然后使用FileSystem.get()方法连接到HDFS。记得处理可能的异常,比如IO异常和URISyntaxException。 接下来,用户希望将多个文件一个输出文件中。这需要遍历所有需要合的输入文件路径,逐个打开输入流,读取内容写入到HDFS的输出流中。使用IOUtils.copyBytes方法可以高效地复制数据,同时要记得关闭每个输入流以防止资源泄漏。 另外,用户提到需要完整的代码示例,所以需要包含必要的导入语句和main方法。还要考虑权限问题,可能需要设置用户身份,比如使用FileSystem.get()时传入用户参数,如"root"。 还要注意HDFS文件系统的URI是否正确,例如"hdfs://hd01:8020"需要根据实际环境修改。同时,处理输入路径和输出路径时,要确保路径字符串正确,且输出文件不存在,否则创建时会报错。 可能还需要处理配置中的某些参数,比如设置副本数,但用户示例中没有特别要求,所以保持默认即可。此外,代码中需要处理异常,用try-catch块包裹,在finally块中关闭文件系统以确保资源释放。 最后,确保代码符合用户提供的引用内容,特别是引用[2]中的代码结构,使用FileSystem.create()获取输出流,遍历本地文件用IOUtils.copy进行合。同时,引用[4]提到小文件对内存的影响,但代码层面主要是流式处理,避免内存溢出。 总结步骤: 1. 导入必要的Hadoop类和IO工具类。 2. 创建Configuration和FileSystem实例。 3. 定义输入路径列表和输出路径。 4. 创建输出流,遍历输入路径,逐个读取写入。 5. 关闭所有资源,处理异常。 6. 提供使用说明和注意事项。 检查代码是否符合HDFS权限处理和伪造用户的情况,如引用[1]中的内容,确保在获取FileSystem时指定用户。同时,确保代码没有语法错误,比如正确的变量命名和异常处理。</think>### HDFS文件Java代码示例 以下是通过HDFS Java API实现文件的完整代码示例,包含配置初始化、文件系统连接和流处理: ```java import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.apache.hadoop.io.IOUtils; import java.io.InputStream; import java.net.URI; public class HdfsFileMerger { public static void main(String[] args) { // 定义HDFS连接参数 String hdfsUri = "hdfs://hd01:8020"; String outputPath = "/merged/result.txt"; String[] inputPaths = {"/input/file1.txt", "/input/file2.txt", "/input/file3.txt"}; Configuration conf = new Configuration(); FileSystem fs = null; FSDataOutputStream outputStream = null; try { // 1. 创建文件系统对象(指定用户身份) fs = FileSystem.get(new URI(hdfsUri), conf, "root"); // 2. 创建输出文件流(强制覆盖已存在文件) outputStream = fs.create(new Path(outputPath), true); // 3. 遍历合文件 for (String inputPath : inputPaths) { Path srcPath = new Path(inputPath); if (fs.exists(srcPath)) { try (InputStream in = fs.open(srcPath)) { IOUtils.copyBytes(in, outputStream, conf, false); // 不自动关闭输入流 } } } System.out.println("文件完成"); } catch (Exception e) { e.printStackTrace(); } finally { // 4. 关闭资源 IOUtils.closeStream(outputStream); IOUtils.closeStream(fs); } } } ``` ### 关键步骤说明 1. **配置初始化** - 通过`new Configuration()`加载core-site.xml和hdfs-site.xml配置 - 支持自动读取Hadoop环境变量 2. **身份验证** - `FileSystem.get()`第三个参数指定操作HDFS的用户身份 - 解决HDFS权限问题[^4] 3. **流处理优化** - 使用`IOUtils.copyBytes`进行缓冲区复制(默认缓冲区大小64KB) - 最后一个参数设为`false`保持输出流持续打开 4. **异常处理** - 包含URI解析异常、IO操作异常处理 - finally块确保资源释放 ### 使用说明 1. **依赖配置** 需在pom.xml中添加Hadoop客户端依赖: ```xml <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>3.3.4</version> </dependency> ``` 2. **运行环境** - 需要配置HADOOP_HOME环境变量 - Windows环境需额外配置hadoop.dll和winutils.exe 3. **路径说明** - 输入路径应使用HDFS绝对路径 - 输出文件所在目录需有写入权限[^1] ### 优化建议 - **大文件处理**:可增加缓冲区大小配置 ```java conf.setInt("io.file.buffer.size", 131072); // 128KB缓冲区 ``` - **进度监控**:添加计数器显示进度 - **异常重试**:对网络中断增加重试机制 ### 其他合方式对比 | 方式 | 优点 | 缺点 | |--------------|------------------------|------------------------| | Java API | 灵活控制合逻辑 | 需编写代码 | | hadoop archive| 保留原始文件结构 | 需要解压才能访问内容[^3]| | MapReduce | 适合超大规模文件 | 启动开销较大[^1] |
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Spring_java_gg

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值