hadoop：linux下读取集群上的文件

最新推荐文章于 2022-11-26 14:40:06 发布

Mr_WuHo_O

最新推荐文章于 2022-11-26 14:40:06 发布

阅读量974

点赞数

文章标签： linux hadoop

本文链接：https://blog.csdn.net/Mrs_WuHo_O/article/details/79223025

版权

package com.wh.util;

import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Collections;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Set;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.LocatedFileStatus;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.RemoteIterator;
import org.apache.hadoop.yarn.proto.YarnServerCommonServiceProtos.SystemCredentialsForAppsProtoOrBuilder;

public class HDFSUtil{
static Configuration hadoopConf =new Configuration();
public static byte[] readFromFileToByteArray(String srcFile) throws Exception{
if(srcFile==null||srcFile.trim().length()==0){
throw new Exception("空");
}
//集群对象引用
FileSystem fs=FileSystem.get(hadoopConf);
//路径对象
Path hdfspath=new Path(srcFile);
FSDataInputStream hdfsinstream = fs.open(hdfspath);
//初始化数组，流
byte[] byteArray=new byte[65535];
ByteArrayOutputStream bos=new ByteArrayOutputStream();

//读
int readLen=0;
while((readLen=hdfsinstream.read(byteArray))>0){
bos.write(byteArray);
//清空
byteArray=new byte[65535];
}
hdfsinstream.close();
return bos.toByteArray();
}
public static String readFromFile(String srcFile) throws Exception{
if(srcFile==null||srcFile.trim().length()==0){
throw new Exception("空");
}
byte[] byteArray=readFromFileToByteArray(srcFile);
if(byteArray==null||byteArray.length==0){
return null;
}
return new String(byteArray,"utf-8");