研一时,跟着老师写完了一个大数据项目,现在不怎么写了,发现很多东西都忘了,还要从网上找资料,从今天起,开始多写博客,每天更新一篇作为记录
今天复习hadoop的基本用法:【配置ubuntu启动环境说明,本人的hadoop ubuntu虚拟机已经配置好了】(hdfs-site.xml,core-site.xml,mapred-site.xml已经配置好了,本次是设置ubuntu快捷启动和eclipse远程连接这两个操作)
①添置ubuntu启动hadoop环境变量:查看首先env一下,看一看当前的环境变量,然后找到etc/profile文件,加入如下:
export HADOOP_HOME=/usr/local/hadoop/hadoop-2.6.0
export PATH=:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
注意,加完环境变量后,不想重启的话,source一下
②启动hadoop的file system,yarn等如下:
#启动hadoop的file system
start-dfs.sh
#启动hadoop的yarn
start-yarn.sh
#查看hdfs目录,"/"表示file system的根目录
hadoop fs -ls /
#新建文件夹"input"
hadoop fs -mkdir /input
#上传测试文件
hadoop fs -put test.txt /input
#运行yarn的wordcount,到share目录下找到hadoop-mapreduce-examples-2.6.0.jar
hadoop jar hadoop-mapreduce-examples-2.6.0.jar wordcount /input /output
#查看结果,发现是part-r-00000文件
hadoop fs -ls /output
hadoop fs -cat /output/part-r-00000
#结果如下:
China 1
Gem 1
hadoop 1
hello,this 3
in 1
is 3
try 1
#删除测试文件和文件夹
#①删除文件
hdfs dfs -rm /input/test.txt
#②删除文件夹output
hadoop fs -rm -r /output
#查看文件的行数
hadoop fs -cat /output/flow/part-r-00000|wc -l
#查看文件大小
hadoop fs -du /output/flow/part-r-00000
#查看文本的最后几行
hadoop fs -cat /output/flow/part-r00000|tail -5
hadoop eclipse访问问题1,加入hadoop插件后(这里需要注意,eclipse添加插件的时候,需要下载一个包【hadoop-common-2.6.0-bin】,不然连接会报错),加入包(hadoop-common-2.6.0-bin)后,没有反应,查了其他人的博客,选择删除掉eclipse下的update文件夹,重启,果然好了