Hadoop archive归档命令的使用

最新推荐文章于 2023-08-05 23:55:12 发布

vegetable chicken01

最新推荐文章于 2023-08-05 23:55:12 发布

阅读量592

点赞数

分类专栏： hadoop 文章标签： hadoop hive hdfs mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jiangzhiqi4551/article/details/105817162

版权

Hadoop的archive命令用于解决小文件过多导致的内存消耗和性能影响。通过归档，可以减少NameNode的压力，但MapReduce仍视为多个输入。Hive可通过参数设置控制map数。

摘要由CSDN通过智能技术生成

archive 命令有什么用

archive 可以用来解决 Hadoop 中的小文件问题，当存在大量小文件时，会产生如下影响：

HDFS 中，小文件过多会占用大量内存，NameNode 内存容量最终会成为限制集群扩展的瓶颈。
HDFS 读写小文件更加耗时，因为每次都需要从 NameNode 获取元信息，并与对应的 DataNode 建立连接。
小文件过多会开很多 map，一个 map 启动一个 JVM 去执行，所以这些任务的初始化，启动，执行会浪费大量的资源，严重影响性能。

如何使用 archive 进行归档

在这里插入图片描述
其实已经用法已经很明白了，name指定名字，将路径上的内容创建到 archive 文件中。

例子

首先我们创建一个小文件 text.txt ，上传四份到 HDFS 上
在这里插入图片描述

用官方自带的 wordcount 跑一下：
在这里插入图片描述
很明显，4个输

最低0.47元/天解锁文章

vegetable chicken01

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。