大数据Hadoop学习(3)-HDFS操作

大数据Hadoop学习(3)-HDFS操作

shell操作、客户端操作(API操作、I/O流操作)

HDFS的Shell操作

基本语法

bin/hadoop fs

不想每次输入命令路径的话,修改/etc/profile

export HADOOP_HOME=/opt/software/hadoop-2.7.0
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin

source /etc/profile

具体命令

(0)启动Hadoop集群(方便后续的测试)

[root@node1 hadoop-2.7.0]$ sbin/start-dfs.sh
[root@node2 hadoop-2.7.0]$ sbin/start-yarn.sh

(1)-help:输出这个命令参数

[root@node2 hadoop-2.7.0]$ hadoop fs -help rm

(2)-ls: 显示目录信息

[root@node2 hadoop-2.7.0]$ hadoop fs -ls /

(3)-mkdir:在hdfs上创建目录

[root@node2 hadoop-2.7.0]$ hadoop fs -mkdir -p /sanguo/shuguo

(4)-moveFromLocal从本地剪切粘贴到hdfs

[root@node2 hadoop-2.7.0]$ touch kongming.txt
[root@node2 hadoop-2.7.0]$ hadoop fs -moveFromLocal ./kongming.txt /sanguo/shuguo

(5)-appendToFile :追加一个文件到已经存在的文件末尾

[root@node2 hadoop-2.7.0]$ touch liubei.txt
[root@node2 hadoop-2.7.0]$ vi liubei.txt
san gu mao lu
[root@node2 hadoop-2.7.0]$ hadoop fs -appendToFile liubei.txt /sanguo/shuguo/kongming.txt

(6)-cat:显示文件内容

[root@node2 hadoop-2.7.0]$ hadoop fs -cat /sanguo/shuguo/kongming.txt

(7)-tail:显示一个文件的末尾

[root@node2 hadoop-2.7.0]$ hadoop fs -tail /sanguo/shuguo/kongming.txt

(8)-chgrp 、-chmod、-chown:linux文件系统中的用法一样,修改文件所属权限

[root@node2 hadoop-2.7.0]$ hadoop fs -chmod 666 /sanguo/shuguo/kongming.txt
[root@node2 hadoop-2.7.0]$ hadoop fs -chown root:root  /sanguo/shuguo/kongming.txt

(9)-copyFromLocal:从本地文件系统中拷贝文件到hdfs路径去

[root@node2 hadoop-2.7.0]$ hadoop fs -copyFromLocal README.txt /

(10)-copyToLocal:从hdfs拷贝到本地

[root@node2 hadoop-2.7.0]$ hadoop fs -copyToLocal /sanguo/shuguo/kongming.txt ./

(11)-cp :从hdfs的一个路径拷贝到hdfs的另一个路径

[root@node2 hadoop-2.7.0]$ hadoop fs -cp /sanguo/shuguo/kongming.txt /zhuge.txt

(12)-mv:在hdfs目录中移动文件

[root@node2 hadoop-2.7.0]$ hadoop fs -mv /zhuge.txt /sanguo/shuguo/

(13)-get:等同于copyToLocal,就是从hdfs下载文件到本地

[root@node2 hadoop-2.7.0]$ hadoop fs -get /sanguo/shuguo/kongming.txt ./

(14)-getmerge :合并下载多个文件,比如hdfs的目录 /aaa/下有多个文件:log.1, log.2,log.3,…

[root@node2 hadoop-2.7.0]$ hadoop fs -getmerge /user/root/test/* ./zaiyiqi.txt

(15)-put:等同于copyFromLocal

[root@node2 hadoop-2.7.0]$ hadoop fs -put ./zaiyiqi.txt /user/root/test/

(16)-rm:删除文件或文件夹

[root@node2 hadoop-2.7.0]$ hadoop fs -rm /user/root/test/jinlian2.txt

(17)-rmdir:删除空目录

[root@node2 hadoop-2.7.0]$ hadoop fs -mkdir /test
[root@node2 hadoop-2.7.0]$ hadoop fs -rmdir /test

(18)-du统计文件夹的大小信息

[root@node2 hadoop-2.7.0]$ hadoop fs -du -s -h /user/root/test
2.7 K /user/root/test

[root@node2 hadoop-2.7.0]$ hadoop fs -du -h /user/root/test
1.3 K /user/root/test/README.txt
15   /user/root/test/jinlian.txt
1.4 K /user/root/test/zaiyiqi.txt

(19)-setrep:设置hdfs中文件的副本数量

[root@node2 hadoop-2.7.0]$ hadoop fs -setrep 10 /sanguo/shuguo/kongming.txt

在这里插入图片描述

这里设置的副本数只是记录在NameNode的元数据中,是否真的会有这么多副本,还得看DataNode的数量。因为目前只有3台设备,最多也就3个副本,只有节点数的增加到10台时,副本数才能达到10。

HDFS客户端操作

客户端操作分API操作,I/O流操作

客户端环境准备

window10下操作,前三步略。

安装java
配置java环境变量
安装idea
配置hadoop环境

1.根据自己电脑的操作系统拷贝对应的hadoop jar包到非中文路径(例如:D:\software\hadoop-2.7.2)
在这里插入图片描述

2.配置HADOOP_HOME环境变量D:\software\hadoop-2.7.2
在这里插入图片描述

  1. 配置Path环境变量%HADOOP_HOME%\bin

在这里插入图片描述

如果配置成功,可以使用hadoop version进行校验.

在这里插入图片描述

如果报错:提示JAVA_HOME incorrect,问题原因是由于jdk目录配置中有空格,比如安装在c盘下jdk,路径一般是默认为

C:\program file\Java\jdk1.8.0_xxx,由于路径中有空格,所以会报错。

解决方法:在解压后的Hadoop安装包中的etc目录中找到hadoop-env.cmd(注意windows需要修改hadoop-env.cmd,linux中修改的是hadoop-env.sh),找到配置的JAVA_HOME

改为:C:\PROGRA~1\Java\jdk1.8.0_xxx(xxx为具体版本号)

idea准备

4.创建一个Maven工程HdfsClientDemo

确保jdk的java版本是刚才配置的,选择maven,点击next

再点finash完成。

可以看到 引入的jar包再External Libraries

提示Maven project need to be imported,选择Enable Auto-Import

5.导入相应的依赖坐标+日志添加

在pom.xml中添加

<dependencies>
		<dependency>
			<groupId>junit</groupId>
			<artifactId>junit</artifactId>
			<version>RELEASE</version>
		</dependency>
		<dependency>
			<groupId>org.apache.logging.log4j</groupId>
			<artifactId>log4j-core</artifactId>
			<version>2.8.2</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-common</artifactId>
			<version>2.7.2</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-client</artifactId>
			<version>2.7.2</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-hdfs</artifactId>
			<version>2.7.2</version>
		</dependency>
</dependencies>

等待依赖包导入完成

如果国外的包无法下载,则可以修改settings.xml文件进行修改,该文件存放于安装目录下C:\Program Files\JetBrains\IntelliJ IDEA Community Edition 2019.3.2\plugins\maven\lib\maven3\conf,修改镜像地址:

<mirrors>
    <mirror>
      <id>nexus</id>
      <mirrorOf>*</mirrorOf> 
      <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
    </mirror>
    <mirror>
      <id>nexus-public-snapshots</id>
      <mirrorOf>public-snapshots</mirrorOf> 
      <url>http://maven.aliyun.com/nexus/content/repositories/snapshots/</url>
    </mirror>
</mirrors>

Settings文件和库存放路径都可以修改:
![]-HDFS操作.assets/clip_image002.jpg)](https://img-blog.csdnimg.cn/20200503164417971.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzOTU2NTA4,size_16,color_FFFFFF,t_70)

注意:如果eclipse/idea打印不出日志,在控制台上只显示
1.log4j:WARN No appenders could be found for logger (org.apache.hadoop.util.Shell). 2.log4j:WARN Please initialize the log4j system properly. 3.log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.
需要在项目的src/main/resources目录下,新建一个文件,命名为“log4j.properties”,在文件中填入

log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

6.创建包名:com.root.hdfs

7.创建HdfsClient类

public class HdfsClient{	
@Test
	public void testMkdirs() throws IOException, InterruptedException, URISyntaxException{
		
		// 1 获取文件系统
		Configuration configuration = new Configuration();
		// 配置在集群上运行
		// configuration.set("fs.defaultFS", "hdfs://192.168.200.101:9000");
		// FileSystem fs = FileSystem.get(configuration);

		FileSystem fs = FileSystem.get(new URI("hdfs://192.168.200.101:9000"), configuration, "root");
		
		// 2 创建目录
		fs.mkdirs(new Path("/loong-test"));
		
		// 3 关闭资源
		fs.close();
	}
}
HDFS的API操作
HDFS文件上传(测试参数优先级)

1.编写源代码

	@Test
	public void testCopyFromLocalFile() throws IOException, InterruptedException, URISyntaxException {
		// 1 获取文件系统
		Configuration configuration = new Configuration();
		configuration.set("dfs.replication", "2");
		FileSystem fs = FileSystem.get(new URI("hdfs://192.168.200.101:9000"), configuration, "root");

		// 2 上传文件
		fs.copyFromLocalFile(new Path("e:/hello.txt"), new Path("/hello.txt"));
	
		// 3 关闭资源
		fs.close();
	
		System.out.println("over");
}

2.将hdfs-site.xml拷贝到项目的resources目录下

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
	<property>
		<name>dfs.replication</name>
        <value>1</value>
	</property>
</configuration>

3.参数优先级
参数优先级排序: (1)客户端代码中设置的值 >(2)classpath下的用户自定义配置文件 >(3)然后是服务器的默认配置

HDFS文件下载
	@Test
	public void testCopyToLocalFile() throws IOException, InterruptedException, URISyntaxException{
		// 1 获取文件系统
		Configuration configuration = new Configuration();
		FileSystem fs = FileSystem.get(new URI("hdfs://192.168.200.101:9000"), configuration, "root");
		
		// 2 执行下载操作
		// boolean delSrc 指是否将原文件删除
		// Path src 指要下载的文件路径
		// Path dst 指将文件下载到的路径
		// boolean useRawLocalFileSystem 是否开启文件校验
		fs.copyToLocalFile(false, new Path("/hello1.txt"), new Path("e:/hello1.txt"), true);
		
		// 3 关闭资源
		fs.close();
}
HDFS文件夹删除
	@Test
	public void testDelete() throws IOException, InterruptedException, URISyntaxException{
		// 1 获取文件系统
		Configuration configuration = new Configuration();
		FileSystem fs = FileSystem.get(new URI("hdfs://192.168.200.101:9000"), configuration, "root");
		
		// 2 执行删除
		fs.delete(new Path("/1108/"), true);
		
		// 3 关闭资源
		fs.close();
}
HDFS文件名更改
	@Test
	public void testRename() throws IOException, InterruptedException, URISyntaxException{
		// 1 获取文件系统
		Configuration configuration = new Configuration();
		FileSystem fs = FileSystem.get(new URI("hdfs://192.168.200.101:9000"), configuration, "root"); 
		
		// 2 修改文件名称
		fs.rename(new Path("/hello.txt"), new Path("/hello6.txt"));
		
		// 3 关闭资源
		fs.close();
}
HDFS文件和文件夹判断
	@Test
	public void testListStatus() throws IOException, InterruptedException, URISyntaxException{
		
		// 1 获取文件配置信息
		Configuration configuration = new Configuration();
		FileSystem fs = FileSystem.get(new URI("hdfs://192.168.200.101:9000"), configuration, "root");
		
		// 2 判断是文件还是文件夹
		FileStatus[] listStatus = fs.listStatus(new Path("/"));
		
		for (FileStatus fileStatus : listStatus) {
			
			// 如果是文件
			if (fileStatus.isFile()) {
				System.out.println("f:"+fileStatus.getPath().getName());
			}else {
				System.out.println("d:"+fileStatus.getPath().getName());
			}
		}
		
		// 3 关闭资源
		fs.close();
}
HDFS的I/O流操作
HDFS文件上传
	@Test
	public void putFileToHDFS() throws IOException, InterruptedException, URISyntaxException {
		// 1 获取文件系统
		Configuration configuration = new Configuration();
		FileSystem fs = FileSystem.get(new URI("hdfs://192.168.200.101:9000"), configuration, "root");

		// 2 创建输入流
		FileInputStream fis = new FileInputStream(new File("e:/hello.txt"));
	
		// 3 获取输出流
		FSDataOutputStream fos = fs.create(new Path("/hello4.txt"));
	
		// 4 流对拷
		IOUtils.copyBytes(fis, fos, configuration);
	
		// 5 关闭资源
		IOUtils.closeStream(fis);
		IOUtils.closeStream(fos);
}
HDFS文件下载

1.需求:从HDFS上下载文件到本地e盘上
2.编写代码

	// 文件下载
	@Test
	public void getFileFromHDFS() throws IOException, InterruptedException, URISyntaxException{
		// 1 获取文件系统
		Configuration configuration = new Configuration();
		FileSystem fs = FileSystem.get(new URI("hdfs://192.168.200.101:9000"), configuration, "root");
		
		// 2 获取输入流
		FSDataInputStream fis = fs.open(new Path("/hello1.txt"));
		
		// 3 获取输出流
		FileOutputStream fos = new FileOutputStream(new File("e:/hello1.txt"));
		
		// 4 流的对拷
		IOUtils.copyBytes(fis, fos, configuration);
		
		// 5 关闭资源
		IOUtils.closeStream(fis);
		IOUtils.closeStream(fos);
		fs.close();
}
	FileSystem fs = FileSystem.get(new URI("hdfs://192.168.200.101:9000"), configuration, "root");
		
		// 2 获取输入流
		FSDataInputStream fis = fs.open(new Path("/hello1.txt"));
		
		// 3 获取输出流
		FileOutputStream fos = new FileOutputStream(new File("e:/hello1.txt"));
		
		// 4 流的对拷
		IOUtils.copyBytes(fis, fos, configuration);
		
		// 5 关闭资源
		IOUtils.closeStream(fis);
		IOUtils.closeStream(fos);
		fs.close();
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值