1.群起集群
在102上启动dfs
sbin/start-dfs.sh
在103上启动yarn(因为resourceManager在103上):
sbin/start-yarn.sh
关闭集群只需要把上面的start换成stop即可。
2.基础文件操作
(1)上传小文件
在102中:
bin/hdfs dfs -put wcinput/wc.input /
打开web端查看是否上传成功
http://hadoop102:50070/explorer.html#/
可以看到小文件wc.input被上传到hdfs的根目录下了。
(2)上传大文件
类似地,我们上传一个大文件:
bin/hdfs dfs -put /opt/software/hadoop-2.7.6.tar.gz /
上传成功。
可以看到,对于小文件,只用一个块就保存了下来,102、103、104上各有一份副本,通过size可以得知这一块从0到49存了49个字节(但依旧用了一个块128MB)。
对于这个大文件,一个块已经不够用了,因此用到了两个块,第一个块从0存到了128MB的大小(取决于块大小),第二块存了剩下的部分,也是102、103、104各有一个备份。
当然,如果点击Download下载到电脑上,是一整块,而不是两块。
(3)文件存在哪了
上传的文件默认保存到了刚刚设置的目录,也就是根目录下的data文件夹,具体而言是一个很深的路径(不同的人可能不一样,我的路径如下):
hadoop根目录/data/tmp/dfs/data/current/BP-430441267-192.168.199.102-1695545523238/current/finalized/subdir0/subdir0
查看该目录下有哪些内容:
可以通过cat查看文件的内容,例如:
cat blk_1073741825
可以看到正是我们之前测试写入的内容。另外,如果仔细观察的话,可以发现这里的文件大小和之前在web中看到的是可以对应的。
2.5 crond系统定时任务
插入一个知识点,crond系统定时任务,该部分全程在root用户下进行
(1)crond服务管理
重新启动crond服务
service crond restart
(2)crontab基本语法
crontab -选项
(3)具体说明
crontab -e
(4)集群时间的同步
这一段貌似不是考点,但是也很重要,以后再看。
3.源码编译
apache提供的Hadoop默认是32位的,要想在64位机器上运行就要进行编译,这一段貌似也不是考点,但是对于面试也很重要,以后再看。
至此,Hadoop的基本操作基本学习完毕,接下来学习HDFS的更多操作。