Hadoop学习笔记二——HDFS分布式文件系统

枫落@

已于 2023-07-21 16:27:31 修改

阅读量209

点赞数

文章标签： hadoop 学习笔记

于 2023-07-17 11:35:41 首次发布

本文链接：https://blog.csdn.net/qq_42053753/article/details/131759429

版权

HDFS的shell操作

hadoop fs 具体命令 OR hdfs dfs 具体命令

1、新建文件夹

hadoop fs -mkdir /file1

2、上传

-moveFromLocal：从本地剪切粘贴到HDFS

hadoop fs  -moveFromLocal  ./shuguo.txt  /sanguo

-copyFromLocal：从本地文件系统中拷贝文件到HDFS路径去

hadoop fs -copyFromLocal weiguo.txt /sanguo

-put：等同于copyFromLocal，生产环境更习惯用put

hadoop fs -put ./wuguo.txt /sanguo

-appendToFile：追加一个文件到已经存在的文件末尾

hadoop fs -appendToFile liubei.txt /sanguo/shuguo.txt

3、下载

-copyToLocal：从HDFS拷贝到本地

hadoop fs -copyToLocal /sanguo/shuguo.txt ./

-get：等同于copyToLocal，生产环境更习惯用get

hadoop fs -get /sanguo/shuguo.txt ./shuguo2.txt

HDFS直接操作

-ls: 显示目录信息
-cat：显示文件内容
-chgrp、-chmod、-chown：Linux文件系统中的用法一样，修改文件所属权限
-mkdir：创建路径
-cp：从HDFS的一个路径拷贝到HDFS的另一个路径
-mv：在HDFS目录中移动文件
-tail：显示一个文件的末尾1kb的数据
-rm：删除文件或文件夹
-rm -r：递归删除目录及目录里面内容
-du统计文件夹的大小信息
-setrep：设置HDFS中文件的副本数量

HDFS的API操作

在IDEA中创建一个Maven工程HdfsClientDemo，并导入相应的依赖坐标+日志添加、

<dependencies>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>3.1.3</version>
    </dependency>
    <dependency>
        <groupId>junit</groupId>
        <artifactId>junit</artifactId>
        <version>4.12</version>
    </dependency>
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-log4j12</artifactId>
        <version>1.7.30</version>
    </dependency>
</dependencies>

在项目的src/main/resources目录下，新建一个文件，命名为“log4j.properties”，在文件中填入

log4j.rootLogger=INFO, stdout  
log4j.appender.stdout=org.apache.log4j.ConsoleAppender  
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout  
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n  
log4j.appender.logfile=org.apache.log4j.FileAppender  
log4j.appender.logfile.File=target/spring.log  
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout  
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

创建包名：com.atguigu.hdfs

创建HdfsClient类

public class HdfsClient {

    @Test
    public void testMkdirs() throws IOException, URISyntaxException, InterruptedException {

        // 1 获取文件系统
        Configuration configuration = new Configuration();

        // FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration);
        FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration,"atguigu");

        // 2 创建目录
        fs.mkdirs(new Path("/xiyou/huaguoshan/"));

        // 3 关闭资源
        fs.close();
    }
}

执行程序

org.apache.hadoop.security.AccessControlException: Permission denied: user=56576, access=WRITE, inode="/xiyou/huaguoshan":atguigu:supergroup:drwxr-xr-x

HDFS的API案例实操

1、HDFS文件上传

@Test
public void testCopyFromLocalFile() throws IOException, InterruptedException, URISyntaxException {

    // 1 获取文件系统
    Configuration configuration = new Configuration();
    configuration.set("dfs.replication", "2");
    FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration, "atguigu");

    // 2 上传文件
    fs.copyFromLocalFile(new Path("d:/sunwukong.txt"), new Path("/xiyou/huaguoshan"));

    // 3 关闭资源
    fs.close();
｝

将hdfs-site.xml拷贝到项目的resources资源目录下

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
	<property>
		<name>dfs.replication</name>
         <value>1</value>
	</property>
</configuration>

参数优先级

参数优先级排序：（1）客户端代码中设置的值 >（2）ClassPath下的用户自定义配置文件 >（3）然后是服务器的自定义配置（xxx-site.xml） >（4）服务器的默认配置（xxx-default.xml）

2、HDFS文件下载

@Test
public void testCopyToLocalFile() throws IOException, InterruptedException, URISyntaxException{

    // 1 获取文件系统
    Configuration configuration = new Configuration();
    FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration, "atguigu");
    
    // 2 执行下载操作
    // boolean delSrc 指是否将原文件删除
    // Path src 指要下载的文件路径
    // Path dst 指将文件下载到的路径
    // boolean useRawLocalFileSystem 是否开启文件校验
    fs.copyToLocalFile(false, new Path("/xiyou/huaguoshan/sunwukong.txt"), new Path("d:/sunwukong2.txt"), true);
    
    // 3 关闭资源
    fs.close();
}

3、HDFS文件更名和移动

@Test
public void testRename() throws IOException, InterruptedException, URISyntaxException{

	// 1 获取文件系统
	Configuration configuration = new Configuration();
	FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration, "atguigu"); 
		
	// 2 修改文件名称
	fs.rename(new Path("/xiyou/huaguoshan/sunwukong.txt"), new Path("/xiyou/huaguoshan/meihouwang.txt"));
		
	// 3 关闭资源
	fs.close();
}

4、HDFS删除文件和目录

@Test
public void testDelete() throws IOException, InterruptedException, URISyntaxException{

	// 1 获取文件系统
	Configuration configuration = new Configuration();
	FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration, "atguigu");
		
	// 2 执行删除
	fs.delete(new Path("/xiyou"), true);
		
	// 3 关闭资源
	fs.close();
}

5、HDFS文件详情查看

查看文件名称、权限、长度、块信息

@Test
public void testListFiles() throws IOException, InterruptedException, URISyntaxException {

	// 1获取文件系统
	Configuration configuration = new Configuration();
	FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration, "atguigu");

	// 2 获取文件详情
	RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);

	while (listFiles.hasNext()) {
		LocatedFileStatus fileStatus = listFiles.next();

		System.out.println("========" + fileStatus.getPath() + "=========");
		System.out.println(fileStatus.getPermission());
		System.out.println(fileStatus.getOwner());
		System.out.println(fileStatus.getGroup());
		System.out.println(fileStatus.getLen());
		System.out.println(fileStatus.getModificationTime());
		System.out.println(fileStatus.getReplication());
		System.out.println(fileStatus.getBlockSize());
		System.out.println(fileStatus.getPath().getName());

		// 获取块信息
		BlockLocation[] blockLocations = fileStatus.getBlockLocations();
		System.out.println(Arrays.toString(blockLocations));
	}
	// 3 关闭资源
	fs.close();
}

6、HDFS文件和文件夹判断

@Test
public void testListStatus() throws IOException, InterruptedException, URISyntaxException{

    // 1 获取文件配置信息
    Configuration configuration = new Configuration();
    FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration, "atguigu");

    // 2 判断是文件还是文件夹
    FileStatus[] listStatus = fs.listStatus(new Path("/"));

    for (FileStatus fileStatus : listStatus) {

        // 如果是文件
        if (fileStatus.isFile()) {
            System.out.println("f:"+fileStatus.getPath().getName());
        }else {
            System.out.println("d:"+fileStatus.getPath().getName());
        }
    }

    // 3 关闭资源
    fs.close();

Hadoop集群各组件分布情况

共涉及三台虚拟机hadoop102、hadoop103、hadoop104

HDFS组件相关：主角色NN部署在hadoop102上，第二主角色SNN部署在hadoop104上，从角色DN三台均部署了。
MapReduce组件相关：该组件为只负责分布式计算，不需要单独启动进程，默认放在了YARN上。
YARN组件相关：主角色RM部署在hadoop103上，从角色NM三台均部署了。
其他相关进程均部署在hadoop102：包括历史记录JobHistoryServer进程和代理服务器进程

最终所有进程分布如下：

枫落@

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
Hadoop学习笔记二——HDFS分布式文件系统

hadoop fs 具体命令 OR hdfs dfs 具体命令1、新建文件夹2、上传-moveFromLocal：从本地剪切粘贴到HDFS-copyFromLocal：从本地文件系统中拷贝文件到HDFS路径去-put：等同于copyFromLocal，生产环境更习惯用put-appendToFile：追加一个文件到已经存在的文件末尾3、下载-copyToLocal：从HDFS拷贝到本地-get：等同于copyToLocal，生产环境更习惯用get-ls: 显示目录信息。
复制链接

扫一扫