hadoop之HDFS 2.X新特性

小刘同学-很乖

于 2020-04-09 09:04:10 发布

阅读量177

点赞数

分类专栏： # HDFS 文章标签： hadoop hdfs 大数据

本文链接：https://blog.csdn.net/u012387141/article/details/105120874

版权

HDFS 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

集群间数据拷贝

scp实现两个远程主机之间的文件复制

scp -r hello.txt [root@hadoop103:/user/liujh/hello.txt](mailto:root@hadoop103:/user/liujh/hello.txt) // 推 push
 scp -r [root@hadoop103:/user/liujh/hello.txt hello.txt](mailto:root@hadoop103:/user/liujh/hello.txt%20%20hello.txt) // 拉 pull
 scp -r [root@hadoop103:/user/liujh/hello.txt](mailto:root@hadoop103:/user/liujh/hello.txt) root@hadoop104:/user/liujh //是通过本地主机中转实现两个远程主机的文件复制；如果在两个远程主机之间ssh没有配置的情况下可以使用该方式

采用distcp命令实现两个Hadoop集群之间的递归数据复制

[liujh@hadoop102 hadoop-2.7.2]$  bin/hadoop distcp
hdfs://haoop102:9000/user/liujh/hello.txt hdfs://hadoop103:9000/user/liujh/hello.txt

小文件存档

HDFS存储小文件弊端
每个文件均按块存储，每个块的元数据存储在NameNode的内存中，因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意，存储小文件所需要的磁盘容量和数据块的大小无关。例如，一个1MB的文件设置为128MB的块存储，实际使用的是1MB的磁盘空间，而不是128MB。
解决存储小文件办法之一
HDFS存档文件或HAR文件，是一个更高效的文件存档工具，它将文件存入HDFS块，在减少NameNode内存使用的同时，允许对文件进行透明的访问。具体说来，HDFS存档文件对内还是一个一个独立文件，对NameNode而言却是一个整体，减少了NameNode的内存。
案例实操
1）需要启动YARN进程

[liujh@hadoop102 hadoop-2.7.2]$ start-yarn.sh

2）归档文件
把/user/liujh/input目录里面的所有文件归档成一个叫input.har的归档文件，并把归档后文件存储到/user/liujh/output路径下

[liujh@hadoop102 hadoop-2.7.2]$ bin/hadoop archive -archiveName input.har –p  /user/liujh/input   /user/liujh/output

3）查看归档

[liujh@hadoop102 hadoop-2.7.2]$ hadoop fs -lsr /user/liujh/output/input.har
[liujh@hadoop102 hadoop-2.7.2]$ hadoop fs -lsr har:///user/liujh/output/input.har

4）解归档文件

[liujh@hadoop102 hadoop-2.7.2]$ hadoop fs -cp har:/// user/liujh/output/input.har/*    /user/liujh

关注微信公众号
简书：https://www.jianshu.com/u/0278602aea1d
CSDN：https://blog.csdn.net/u012387141

小刘同学-很乖

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop之HDFS 2.X新特性

集群间数据拷贝scp实现两个远程主机之间的文件复制scp -r hello.txt [root@hadoop103:/user/liujh/hello.txt](mailto:root@hadoop103:/user/liujh/hello.txt) // 推 push scp -r [root@hadoop103:/user/liujh/hello.txt hello.txt](mai...
复制链接

扫一扫