02-Hadoop2.7.6最基本操作（群起集群、上传文件）

最新推荐文章于 2024-08-29 08:36:17 发布

Slothwolf

最新推荐文章于 2024-08-29 08:36:17 发布

阅读量314

点赞数

分类专栏：大数据比赛（省赛）（更新中）文章标签：大数据 hadoop linux

本文链接：https://blog.csdn.net/Slothwolf/article/details/133391897

版权

13 篇文章 0 订阅

订阅专栏

1.群起集群

在102上启动dfs

sbin/start-dfs.sh

在103上启动yarn(因为resourceManager在103上)：

sbin/start-yarn.sh

关闭集群只需要把上面的start换成stop即可。

在102中：

bin/hdfs dfs -put wcinput/wc.input /

打开web端查看是否上传成功

http://hadoop102:50070/explorer.html#/

可以看到小文件wc.input被上传到hdfs的根目录下了。

类似地，我们上传一个大文件：

bin/hdfs dfs -put /opt/software/hadoop-2.7.6.tar.gz /

上传成功。

可以看到，对于小文件，只用一个块就保存了下来，102、103、104上各有一份副本，通过size可以得知这一块从0到49存了49个字节（但依旧用了一个块128MB）。

对于这个大文件，一个块已经不够用了，因此用到了两个块，第一个块从0存到了128MB的大小（取决于块大小），第二块存了剩下的部分，也是102、103、104各有一个备份。

当然，如果点击Download下载到电脑上，是一整块，而不是两块。

上传的文件默认保存到了刚刚设置的目录，也就是根目录下的data文件夹，具体而言是一个很深的路径（不同的人可能不一样，我的路径如下）：

hadoop根目录/data/tmp/dfs/data/current/BP-430441267-192.168.199.102-1695545523238/current/finalized/subdir0/subdir0

查看该目录下有哪些内容：

可以通过cat查看文件的内容，例如：

cat blk_1073741825

可以看到正是我们之前测试写入的内容。另外，如果仔细观察的话，可以发现这里的文件大小和之前在web中看到的是可以对应的。

插入一个知识点，crond系统定时任务，该部分全程在root用户下进行

重新启动crond服务

service crond restart

crontab -选项

crontab -e

这一段貌似不是考点，但是也很重要，以后再看。

apache提供的Hadoop默认是32位的，要想在64位机器上运行就要进行编译，这一段貌似也不是考点，但是对于面试也很重要，以后再看。

至此，Hadoop的基本操作基本学习完毕，接下来学习HDFS的更多操作。

关注

专栏目录