1、准备原料
jdk-7u79-linux-i586.tar.gz ,hadoop-1.2.1.tar.gz,linux版本centOS6.5
2、安装jdk
解压tar包
tar -zxvf jdk-7u79-linux-i586.tar.gz
配置jdk环境变量:
vi /etc/profile
增加下面配置:
export JAVA_HOME=/usr/java/jdk1.7.0_79
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
使配置生效:
source profile
查看是否安装成功
java -version
3、安装hadoop
解压
tar -zxvf hadoop-1.2.1.tar.gz
配置hadoop 环境变量
vi /etc/profile
export HADOOP_HOME=/opt/modules/hadoop-1.2.1
export PATH=$HADOOP_HOME/bin:$PATH
4、运行测试hadoop-examples-1.2.1.jar 程序
创建input,和output文件夹:
mkdir input
mkdir output
拷贝conf下的xml文件到input 目录:
cp conf/*.xml input
运行hadoop命令:
hadoop jar /opt/modules/hadoop-1.2.1/hadoop-examples-1.2.1.jar grep /opt/data/input/ /opt/data/output/ 'dfs[a-z.]+'
此时会报一个异常:org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory file:/opt/data/output already exists
经分析原来是:hadoop 由于进行的是耗费资源的计算,生产的结果默认是不能被覆盖的,
因此中间结果输出目录一定不能存在,否则出现这个错误。
把output文件夹删除就可以拉。
执行删除命令 :
rm -rf output
在运行
hadoop jar /opt/modules/hadoop-1.2.1/hadoop-examples-1.2.1.jar grep /opt/data/input/ /opt/data/output/ 'dfs[a-z.]+'
查看output文件夹_SUCCESS 说明成功
cat part-00000
统计dfsadmin 只出现了一次