HDFS学习五：HDFS2.x新特性

最新推荐文章于 2023-02-15 21:52:31 发布

阿星_Alex

最新推荐文章于 2023-02-15 21:52:31 发布

阅读量120

点赞数

分类专栏： # Hadoop 文章标签： hdfs hadoop big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35515283/article/details/122332264

版权

Hadoop 专栏收录该内容

14 篇文章 3 订阅

订阅专栏

1.集群间数据拷贝

方法一：scp命令，这个在hadoop完全分布式运行模式一文中有介绍。

方法二：采用distcp命令实现两个Hadoop集群之间的递归数据复制

举例如下，将hello.txt文件从102集群拷贝到103，二者都是namenode所在节点主机名

bin/hadoop distcp hdfs://hadoop102:9000/user/hello.txt hdfs://hadoop103:9000/user/hello.txt

2.小文件归档

2.1HDFS存储小文件的弊端

每个文件按块存储，每个块的元数据存储在NameNode的内存之中，因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存，但注意，存储小文件所需要的磁盘容量和数据块的大小无关。例如：一个1MB的文件设置为128MB的块存储，实际使用的是1MB的磁盘空间，而不是128MB.

2.2解决存储小文件的办法之一

HDFS存档文件或HAR文件，是一个更高效的文件存档工具，它将文件存入HDFS块，在减少NameNode内存使用的同时，允许对文件进行透明的访问。具体来说，HDFS存档文件对内还是一个一个独立的文件，对NameNode而言却是一个整体，减少了NameNode的内存。

案例实操

1）需要启动YARN进程

start-yarn.sh

2）归档文件

将/user/input目录下面的所有文件归档成一个叫input.har的归档文件，并把归档后文件存储到/user/output路径下

bin/hadoop archive -archiveName input.har -p /user/input /user/output

3)查看归档

hadoop fs -lsr /user/output/input.har hadoop fs -lsr har:///user/output/input.har

4)解归档文件

hadoop fs -cp har:///user/output/input.har/* /user/

3.回收站

开启回收站功能，可以将删除的文件在不超时的情况下，恢复原数据，起到防止误删除、备份等作用。

启用回收站：

core-site.xml文件，配置垃圾回收时间为1分钟。

<property>
<name>fs.trash.interval</name>
<value>1</value>
</property>

查看回收站：

回收站在集群中的路径：/user/root/.Trash/..

修改访问垃圾回收站用户名称

进入垃圾回收站用户名称，默认是dr.who,修改为root用户

core-site.xml文件

<property>
<name>hadoop.http.staticuser.user</name>
<value>root</value>
</property>

通过程序删除的文件不会经过回收站，需要调用moveToTrash才进入回收站

Trash trash = New Trash(conf); 
trash.moveToTrash(path);

恢复回收站数据

hadoop fs -mv /user/root/.Trash/Current/user/root/input /user/root/input

清空回收站

hadoop fs -expunge

4.快照管理

申明：本文内容源自本人听阿里云官网的大数据社区相关网课

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
HDFS学习五：HDFS2.x新特性

1.集群间数据拷贝方法一：scp命令，这个在hadoop完全分布式运行模式一文中有介绍。方法二：采用distcp命令实现两个Hadoop集群之间的递归数据复制举例如下，将hello.txt文件从102集群拷贝到103，二者都是namenode所在节点主机名bin/hadoop distcp hdfs://hadoop102:9000/user/hello.txt hdfs://hadoop103:9000/user/hello.txt 2.小文件归档2.1HDFS存储小文件的弊端
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

阿星_Alex 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。