02-Hadoop2.7.6最基本操作(群起集群、上传文件)

1.群起集群

在102上启动dfs

sbin/start-dfs.sh 

 在103上启动yarn(因为resourceManager在103上):

sbin/start-yarn.sh

 

关闭集群只需要把上面的start换成stop即可。

2.基础文件操作

(1)上传小文件

在102中:

bin/hdfs dfs -put wcinput/wc.input /

打开web端查看是否上传成功

http://hadoop102:50070/explorer.html#/

 可以看到小文件wc.input被上传到hdfs的根目录下了。

(2)上传大文件

类似地,我们上传一个大文件:

bin/hdfs dfs -put /opt/software/hadoop-2.7.6.tar.gz /

上传成功。

可以看到,对于小文件,只用一个块就保存了下来,102、103、104上各有一份副本,通过size可以得知这一块从0到49存了49个字节(但依旧用了一个块128MB)。

 

对于这个大文件,一个块已经不够用了,因此用到了两个块,第一个块从0存到了128MB的大小(取决于块大小),第二块存了剩下的部分,也是102、103、104各有一个备份。

 

当然,如果点击Download下载到电脑上,是一整块,而不是两块。

(3)文件存在哪了

上传的文件默认保存到了刚刚设置的目录,也就是根目录下的data文件夹,具体而言是一个很深的路径(不同的人可能不一样,我的路径如下):

hadoop根目录/data/tmp/dfs/data/current/BP-430441267-192.168.199.102-1695545523238/current/finalized/subdir0/subdir0

 查看该目录下有哪些内容:

 可以通过cat查看文件的内容,例如:

cat blk_1073741825

可以看到正是我们之前测试写入的内容。另外,如果仔细观察的话,可以发现这里的文件大小和之前在web中看到的是可以对应的。

2.5 crond系统定时任务

插入一个知识点,crond系统定时任务,该部分全程在root用户下进行

(1)crond服务管理

重新启动crond服务

service crond restart

(2)crontab基本语法

crontab -选项

 (3)具体说明

crontab -e

(4)集群时间的同步

 这一段貌似不是考点,但是也很重要,以后再看。

3.源码编译

apache提供的Hadoop默认是32位的,要想在64位机器上运行就要进行编译,这一段貌似也不是考点,但是对于面试也很重要,以后再看。

至此,Hadoop的基本操作基本学习完毕,接下来学习HDFS的更多操作。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值