hadoop快速入门，伪分布式模式安装

最新推荐文章于 2024-08-18 00:00:00 发布

挥洒寂寞

最新推荐文章于 2024-08-18 00:00:00 发布

阅读量150

点赞数 2

分类专栏： hadoop 文章标签： hadoop hadoop入门 hadoop单机 hadoop单机模式安装

本文链接：https://blog.csdn.net/cjl337370939/article/details/52231711

版权

0 篇文章 0 订阅

订阅专栏

jdk-7u79-linux-i586.tar.gz ，hadoop-1.2.1.tar.gz，linux版本centOS6.5

解压tar包

tar -zxvf jdk-7u79-linux-i586.tar.gz

配置jdk环境变量：

 vi /etc/profile

增加下面配置：

export JAVA_HOME=/usr/java/jdk1.7.0_79
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

使配置生效：

source profile

查看是否安装成功

java -version

解压

tar -zxvf hadoop-1.2.1.tar.gz

配置hadoop 环境变量

vi /etc/profile

增加下面配置：

export HADOOP_HOME=/opt/modules/hadoop-1.2.1
export PATH=$HADOOP_HOME/bin:$PATH

创建input，和output文件夹:

mkdir input
mkdir output

拷贝conf下的xml文件到input 目录:

cp conf/*.xml input

运行hadoop命令：

hadoop jar /opt/modules/hadoop-1.2.1/hadoop-examples-1.2.1.jar grep /opt/data/input/ /opt/data/output/ 'dfs[a-z.]+'

此时会报一个异常：org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory file:/opt/data/output already exists

经分析原来是：hadoop 由于进行的是耗费资源的计算，生产的结果默认是不能被覆盖的，

因此中间结果输出目录一定不能存在，否则出现这个错误。把output文件夹删除就可以拉。

执行删除命令：

rm -rf output

在运行

hadoop jar /opt/modules/hadoop-1.2.1/hadoop-examples-1.2.1.jar grep /opt/data/input/ /opt/data/output/ 'dfs[a-z.]+'

查看output文件夹_SUCCESS 说明成功

cat part-00000

统计dfsadmin 只出现了一次

关注