四、HADOOP(HDFS)-07

四、HADOOP(HDFS)-07

HDFS2.X新特性

1、集群间数据拷贝

​ 1、scp实现两个远程主机之间的文件复制

scp -r hello.txt root@hadoop103:/user/hello.txt #推 push
scp -r root@hadoop103:/user/hello.txt hello.txt # 拉 pull
scp -r root@hadoop103:/user/hello.txt root@hadoop104:/user/
#通过本地主机中转实现两个远程主机的文件复制

​ 2、采用distcp命令实现两个Hadoop集群之间的递归数复制

[lyinl@hadoop102 hadoop-2.7.2]$ bin/hadoop distcp
hdfs://haoop102:9000/user/hello.txt 
hdfs://hadoop103:9000/user/hello.txt
2、小文件存档
1、HDFS存储小文件弊端

​ 每一个文件均按块存储,每个块的元数据存储在NameNode的内存中,因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中大部分内存。但注意,存储小文件所需要的磁盘容量和数据块的大小无关。例如,一个1MB的文件设置为128MB的块存储,实际使用的是1MB的磁盘空间,而不是128MB。

2、解决存储小文件办法

​ HDFS存档文件或HAR文件,是一个更高效的文件存档工具,它将文件存入HDFS块,在减少NameNode内存使用的同时,允许对文件进行透明的访问。HDFS存档文件对内还是一个一个独立文件,对NameNode而言却是一个整体,减少NameNode的内存。

在这里插入图片描述

​ 3、案例

​ (1) 需要启动YARN进程

[lyinl@hadoop102 hadoop-2.7.2]$ start-yarn.sh

​ (2) 归档文件

​ 把/user/input 目录里面的所有文件归档一个input.har的归档文件,并把归档后文件存储到/user/output路径下。

[lyinl@hadoop102 hadoop-2.7.2]$ bin/hadoop archive -
archiveName input.har –p /user/input  /user/output

​ (3) 查看文档

[lyinl@hadoop102 hadoop-2.7.2]$ hadoop fs -lsr 
/user/output/input.har
[lyinl@hadoop102 hadoop-2.7.2]$ hadoop fs -lsr 
har:///user/output/input.har

​ (4) 解归档文件

[lyinl@hadoop102 hadoop-2.7.2]$ hadoop fs -cp har:/// 
user/output/input.har/* /user/
3、回收站

​ 开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。

1、开启回收站功能参数说明:

​ 1、默认值fs.trash.interval=0,0表示禁用回收站;其他值表示设置文件的存活时间

​ 2、默认值fs.trash.checkpoint.interval=0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等

​ 3、要求fs.trash.checkpoint.interval<=fs.trash.interval。

在这里插入图片描述

2、启用回收站

​ 修改core-site.xml,配置垃圾回收时间为1分钟。

<property>
 <name>fs.trash.interval</name>
<value>1</value>
</property>
3、查看回收站

​ 回收站:/user/.Trash/…

4、修改访问垃圾回收站用户名

​ [core-site.xml]

<property>
 <name>hadoop.http.staticuser.user</name>
 <value>lyinl</value>
</property>
5、通过程序删除的文件不会经过回收站,需要调用moveToTrash才进入回收站Trash trash=New Trash(conf);

​ trash.moveToTrash(path);

6、恢复回收站数据
[lyinl@hadoop102 hadoop-2.7.2]$ hadoop fs -mv
/user/.Trash/Current/user/lyinl/input 
/user/lyinl/input
7、清空回收站
[lyinl@hadoop102 hadoop-2.7.2]$ hadoop fs -expunge
4、快照管理

快照相当于对目录做一个备份。并不会立即复制所有文件,而是记录文件变化。

命令功能描述
hdfs dfsadmin -allowSnapshot 路径开启指定目录的快照功能
hdfs dfsadmin -disallowSnapshot 路径禁用指定目录的快照功能,默认是禁用
hdfs dfs -createSnapshot 路径hdfs dfs -createSnapshot 路径
hdfs dfs -createSnapshot 路径 名称指定名称创建快照
hdfs dfs -renameSnapshot 路径 旧名称 新名称重命名快照
hdfs lsSnapshottableDir列出当前用户所有可快照目录
hdfs snapshotDiff 路径1 路径2比较两个快照目录的不同之处
hdfs dfs -deleteSnapshot 删除快照
案例实操

​ (1) 开启/禁用指定目录的开罩功能

[lyinl@hadoop102 hadoop-2.7.2]$ hdfs dfsadmin -
allowSnapshot /user/lyinl/input
[lyinl@hadoop102 hadoop-2.7.2]$ hdfs dfsadmin -
disallowSnapshot /user/lyinl/input

​ (2) 对目录创建快照

[lyinl@hadoop102 hadoop-2.7.2]$ hdfs dfs -createSnapshot 
/user/lyinl/input

​ 通过web访问

​ hdfs://hadoop102:50070/user/lyinl/input/.snapshot/s……//快照和源文

件使用相同数据

[lyinl@hadoop102 hadoop-2.7.2]$ hdfs dfs -lsr 
/user/lyinl/input/.snapshot/

​ (3) 指定名称创建快照

[lyinl@hadoop102 hadoop-2.7.2]$ hdfs dfs -createSnapshot 
/user/lyinl/input hello12345

​ (4) 重命名快照

[lyinl@hadoop102 hadoop-2.7.2]$ hdfs dfs -renameSnapshot 
/user/lyinl/input/hello12345 word789

​ (5) 列出当前用户所有可快目录

[lyinl@hadoop102 hadoop-2.7.2]$ hdfs lsSnapshottableDir

​ (6) 比较两个快照目录的不同之处

[lyinl@hadoop102 hadoop-2.7.2]$ hdfs snapshotDiff
/user/lyinl/input/ . .snapshot/word789

​ (7) 恢复快照

[lyinl@hadoop102 hadoop-2.7.2]$ hdfs dfs -cp
/user/lyinl/input/.snapshot/s20170708-134303.027 /user
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值