Hadoop新特性

勤奋的ls丶

于 2021-12-17 20:11:47 发布

阅读量61

点赞数

分类专栏： Hadoop 文章标签： hadoop big data 分布式

本文链接：https://blog.csdn.net/lslslslslss/article/details/122004070

版权

Hadoop 专栏收录该内容

22 篇文章 2 订阅

订阅专栏

Hadoop2.x新特性

1.集群间数据拷贝

1）scp实现两个远程主机之间的文件复制

scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt // 推 push

scp -r root@hadoop103:/user/atguigu/hello.txt hello.txt // 拉 pull

scp -r root@hadoop103:/user/atguigu/hello.txt root@hadoop104:/user/atguigu //是通过本地主机中转实现两个远程主机的文件复制；如果在两个远程主机之间ssh没有配置的情况下可以使用该方式。

2）采用distcp命令实现两个Hadoop集群之间的递归数据复制

[example@hadoop102 hadoop-3.1.3]$  bin/hadoop distcp hdfs://hadoop102:8020/user/atguigu/hello.txt hdfs://hadoop105:8020/user/atguigu/hello.txt

2.小文件存档

1）案例实操

（1）需要启动YARN进程

[atguigu@hadoop102 hadoop-3.1.3]$ start-yarn.sh

（2）归档文件

把/user/atguigu/input目录里面的所有文件归档成一个叫input.har的归档文件，并把归档后文件存储到/user/atguigu/output路径下。

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop archive -archiveName input.har -p  /user/atguigu/input   /user/atguigu/output

（3）查看归档

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -ls /user/atguigu/output/input.har

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -ls har:///user/atguigu/output/input.har

（4）解归档文件

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -cp har:/// user/atguigu/output/input.har/*    /user/atguigu

3.回收站

开启回收站功能，可以将删除的文件在不超时的情况下，恢复原数据，起到防止误删除、备份等作用。

1）机制

2）启用回收站

修改core-site.xml，配置垃圾回收时间为1分钟。

<property>

    <name>fs.trash.interval</name>

<value>1</value>

</property>

3）查看回收站

回收站目录在hdfs集群中的路径：/user/atguigu/.Trash/….

4）通过程序删除的文件不会经过回收站，需要调用moveToTrash()才进入回收站

//因为本地的客户端拿不到集群的配置信息 所以需要自己手动设置一下回收站

conf.set(“fs.trash.interval”,”1”);

conf.set(“fs.trash.checkpoint.interval”,”1”);

//创建一个回收站对象

Trash trash = New Trash(conf);

trash.moveToTrash(path);

5）通过网页上直接删除的文件也不会走回收站。

6）只有在命令行利用hadoop fs -rm命令删除的文件才会走回收站。

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -rm -r /user/atguigu/input

2020-07-14 16:13:42,643 INFO fs.TrashPolicyDefault: Moved: 'hdfs://hadoop102:8020/user/atguigu/input' to trash at: hdfs://hadoop102:8020/user/atguigu/.Trash/Current/user/atguigu/input

7）恢复回收站数据

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -mv

/user/atguigu/.Trash/Current/user/atguigu/input    /user/atguigu/input

Hadoop3.x新特性

多NN的HA架构

HDFS NameNode高可用性的初始实现为单个活动NameNode和单个备用NameNode，将edits复制到三个JournalNode。该体系结构能够容忍系统中一个NN或一个JN的故障。

但是，某些部署需要更高程度的容错能力。Hadoop3.x允许用户运行多个备用NameNode。例如，通过配置三个NameNode和五个JournalNode，群集能够容忍两个节点而不是一个节点的故障。

纠删码

HDFS中的默认3副本方案在存储空间和其他资源（例如，网络带宽）中具有200％的开销。但是，对于I / O活动相对较低暖和冷数据集，在正常操作期间很少访问其他块副本，但仍会消耗与第一个副本相同的资源量。

纠删码（Erasure Coding）能够在不到50% 的数据冗余情况下提供和3副本相同的容错能力，因此，使用纠删码作为副本机制的改进是自然而然的。

查看集群支持的纠删码策略：hdfs ec -listPolicies

勤奋的ls丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop新特性

Hadoop2.x新特性1.集群间数据拷贝1）scp实现两个远程主机之间的文件复制scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt // 推 pushscp -r root@hadoop103:/user/atguigu/hello.txt hello.txt // 拉 pullscp -r root@hadoop103:/user/atguigu/hell...
复制链接

扫一扫

专栏目录