linux安装Hadoop-单机环境

最新推荐文章于 2023-05-17 14:17:04 发布

Intboy

最新推荐文章于 2023-05-17 14:17:04 发布

阅读量874

点赞数

分类专栏：大数据-Hadoop 文章标签： hadoop 大数据单机版

本文链接：https://blog.csdn.net/fengspg/article/details/44493845

版权

大数据-Hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

如今大数据各种火，看看各种招聘网址，大数据、数据挖掘起薪20W啊，各种诱惑，所以，自己也学学大数据相关。

具体大数据什么，能做什么，发展史等等，我在这里就不描述了，网上一大堆，再说，个人从来不记什么东西发展史什么的，浪费脑细胞。

本文主要是作为个人的学习笔记，如果有不对之处，欢迎指正。

首先肯定是从环境的搭建开始。

个人环境配置

Linux Centos7
JDK jdk7u25
Hadoop 2.5.2

安装步骤

1：安装SSH

使用yum install openssh-server安装ssh服务（Centos7默认已经安装ssh）

2：配置ssh免密码登陆

ssh-keygen -t rsa -P ''

使用上面命令后，会在~/home/{username}/.ssh/下生成两个加密文件，id_rsa（私钥）和id_rsa.pub（公钥）。

然后进入.ssh目录，将id_rsa.pub中的内容追加到authorized_keys文件中：cat id_rsa.pub >> authorized_keys；

如果是Ubuntu，则此时已经可以使用ssh免密码登陆，如果是centos环境，则需要修改.ssh目录权限和authorized_keys权限，如下：

chmod 700 .ssh
chmod 600 authorized_keys

此时，则可以直接使用ssh免密码登陆了：ssh localhost验证结果。

3：安装配置JDK

jdk的安装配置此处也不在描述，相信搞java的童鞋都能搞定。

4：安装Hadoop

下载Hadoop（可在官方提供的镜像地址下载：http://mirror.bit.edu.cn/apache/hadoop/common/)选择hadoop-2.5.2.tar.gz下载。
将压缩文件解压到某目录下（tar -zxvf hadoop-2.5.2.tar.gz）。
添加Hadoop环境变量（vim /etc/profile，将如下内容添加到文件中）。

export HADOOP_HOME={Hadoop目录}/hadoop-2.5.2
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export CLASSPATH=.:$HADOOP_HOME/lib:$CLASSPATH
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

保存退出，病执行如下命令试修改生效：

source /etc/profile

修改Hadoop配置

进入Hadoop目录下/home/shipg/soft/hadoop/hadoop-2.5.2/etc/hadoop，修改hadoop-env.sh文件中JAVA_HOME值，如下我的配置：

export JAVA_HOME=/usr/java/jdk1.7.0_75

保存退出

此时，单机版Hadoop环境已经安装完成。

5：验证结果

使用Hadoop自带的wordcount来验证安装结果。

首先在Hadoop跟目录下创建input目录（mkdir input），在input目录中随便拷贝一份文件进去，或者自己写些内容到此目录下，此处将README.txt拷贝进input目录。

然后执行如下命令执行单词统计：

bin/hadoop jar share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.5.2-sources.jar org.apache.hadoop.examples.WordCount input output

此命令大概意思为：执行hadoop-mapreduce-example-2.5.2-sources.jar包中的WordCount类，数据源在input目录，将最终结果输出到output目录下。执行命令后可看到如下图所示表示执行成功。

此时，在Hadoop跟目录下你会发现多出了output目录，其中统计结果即放在此目录下。

cat part-r-00000

即可看到对README.txt文件中各个单词的统计结果。

至此，Hadoop单机版即安装并验证结果完成。