第二章的HDFS的shell操作是在虚拟机上进行远程连接控制HDFS操控的。
第三章的API操作时在Windows环境下,用idea开发工具使用Java代码进行远程操控的。
1:把资料包的hadoop文件夹拷贝到一个没有中路路径的地方。
2:在系统变量里面新增环境变量
HADOOP_HOME D:\hadoop-3.1.0
3:然后配置path环境变量,新增以下内容
%HADOOP_HOME%\bin
4:创建maven工程,导入依赖,resorces路径下,新建log4j.properties文件
// 这个在pom文件下
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>3.1.3</version>
</dependency>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.12</version>
</dependency>
<dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-log4j12</artifactId>
<version>1.7.30</version>
</dependency>
// 这个在log4j.properties下
log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n
5:写主测试程序代码
public class HdfsClient {
@Test
public void testMkdirs() throws IOException, URISyntaxException, InterruptedException {
// 1 获取文件系统
// 下面三行基本上都是必用的,还有下面的关闭资源,这些东西可以写具体函数封装起来
Configuration configuration = new Configuration();
// FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration);
// 这个地方一定要指定具体用户,否则无法正常操作,就像我们使用虚拟机操作的时候,也是有登录用户的
FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration,"atguigu");
// 2 创建目录
fs.mkdirs(new Path("/xiyou/huaguoshan/"));
// 文件上传,可以用configuration.set("dfs.replication","2")进行指定副本数量
// 也可以通过将hdfs-site,xml拷贝到resources资源目录下进行指定
// 对于设置参数设置的优先级为
客户端代码中设置的值>Classpath下用户配置文件中>xxx-sitm.xml的值>xxx-default.xml值
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
// 文件下载
// boolean delSrc 指是否将原文件删除
// Path src 指要下载的文件路径
// Path dst 指将文件下载到的路径
// boolean useRawLocalFileSystem 是否开启文件校验
fs.copyToLocalFile(false, new Path("/xiyou/huaguoshan/sunwukong.txt"), new Path("d:/sunwukong2.txt"), true);
// 文件的更名和移动
fs.rename(new Path("/xiyou/huaguoshan/sunwukong.txt"), new
Path("/xiyou/huaguoshan/meihouwang.txt"));
// 删除文件和目录,不可删除空目录,且目录的话一定要递归删除(true)
fs.delete(new Path("/xiyou"), true);
// 查看文件信息,参数为哪个路径下的文件,以及是否递归
RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);
while (listFiles.hasNext()) {
LocatedFileStatus fileStatus = listFiles.next();
System.out.println("========" + fileStatus.getPath() + "=========");//路径
System.out.println(fileStatus.getPermission());//权限
System.out.println(fileStatus.getOwner());//所有者
System.out.println(fileStatus.getGroup());//所在组
System.out.println(fileStatus.getLen());//长度
System.out.println(fileStatus.getModificationTime());//修改时间
System.out.println(fileStatus.getReplication());//副本数量
System.out.println(fileStatus.getBlockSize());//块大小
System.out.println(fileStatus.getPath().getName());//文件名
// 获取块信息,根据文件的大小,可能不止有一个块,这就是获取的每个块的具体信息
BlockLocation[] blockLocations = fileStatus.getBlockLocations();
System.out.println(Arrays.toString(blockLocations));
}
// 文件和文件夹判断,获取到指定路径的迭代器
FileStatus[] listStatus = fs.listStatus(new Path("/"));
for (FileStatus fileStatus : listStatus) {
// 如果是文件
if (fileStatus.isFile()) {
System.out.println("f:"+fileStatus.getPath().getName());
}else {
System.out.println("d:"+fileStatus.getPath().getName());
}
}
// 3 关闭资源
fs.close();
}
}