在前面的步骤中,我们已经建立了hadoop环境,下面该运行一个实例了,就拿hadoop自带的wordcount练手吧。
- 建立本地数据文件
在我们准备的hadoop本地文件夹data下建立一个data_in文件夹,并在此文件夹下创建两个数据文件,分别是file1.txt和file2.txt。
file1.txt中保存一个句子:Hello world!
file2.txt中保存一个句子:I am the king of the world!
- 上传数据文件至dfs文件系统
下面我们要将本地建立的两个数据文件上传到hdfs文件系统中。
(以下过程,如果没有启动hadoop环境,请参考hadoop安装过程中启动hadoop的方法先启动hadoop环境,否则会看到“Retrying connect to server”的错误)
* 进入cygwin环境
* 进入hadoop的bin目录:cd /cygdrive/d/hadoop/deploy/hadoop-1.0.3/bin
* 在hdfs上建立data_in目录:./hadoop dfs -mkdir data_in
* 上传数据文件:./hadoop dfs -put /hadoop/data/data_in/*.txtdata_in
* 查看文件上传成功:./hadoop dfs -ls data_in
整个过程如下图所示: