hadoop与spark的配置

njuzrs

于 2015-08-12 11:44:37 发布

阅读量434

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/u013089132/article/details/47442151

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

参考网站：
Linux下配置jdk1.7- Hustc的专栏 - 博客频道 - CSDN.NET
高效搭建Spark完全分布式集群- 服务器负载均衡 - 次元立方网 - 电脑知识与技术互动交流平台
hadoop学习之hadoop完全分布式集群安装- 落魄影子 - 博客频道 - CSDN.NET
hadoop2.2完全分布式最新高可靠安装文档-Hadoop2|YARN-about云开发
Spark1.0.0分布式环境搭建 - lili72的专栏 - 博客频道 - CSDN.NET
经过几天的挣扎，终于对hadoop,spark的安装配置有一定了解，下面与大家分享一下。
搭建spark建立在搭建完hadoop的基础上，所以我们分为两大部分，第一大部分先搭建hadoop集群，其次搭建spark集群。
一、搭建hadoop集群
      这里我们先利用两台计算机搭建集群，一台作为master,一台作为slave1。根据实际需要可以以后添加slave。我的两台计算机ip:
      master   114.212.115.29
      slave1    114.212.114.76
1.为我们搭建hadoop集群独立建立一个用户（因为方便之后的ssh远程登录以及容易管理）：
       sudo groupaddhadoop   // 设置 hadoop 用户组
      sudo useradd –s /bin/bash –d /home/zhm –m zrs –g hadoop –Gadmin   // 添加一个 zhm 用户，此用户属于 hadoop 用户组，且具有 admin 权限。
      sudo passwd zrs // 设置用户 zhm 登录密码
      su zrs // 切换到 zhm 用户中
(ps：这里可将zrs用户加到/etc/sudoers中去，方便以后在zrs用户下使用sudo命令，不然会报错）
2.
    2.1将两台计算机分别改名，容易辨别：
          sudo vim /etc/hostname(分别在里面改成master与slave1)
  2.2修改两台机子的/etc/hosts文件，添加master,slave1对应的 ip
          sudo vim /etc/hosts
          在里面加上
           114.212.115.29   master
           114.212.114.76   slave1
3. 安装开启两台机子上的ssh服务
    3.1下载ssh（两台机都要）
          sudo apt-get install ssh
   3.2 每台机子产生自己的密钥
          ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
   3.3 导入authorized_keys（把自己的公钥导入authorized_keys，实现无密码登录）

          cat ~/. ssh/id_dsa.pub>> ~/.ssh/
          这时可以单机无密码登录了，可用下面命令测试：
          ssh   localhost
   3.4 实现master到slave1的无密码登录，就是把master的authorized_keys放到slave1的中
           进入 master的.ssh目录

scp authorized_keyszrs @slave1:~/.ssh/authorized_keys_from_master
进入slave1的.ssh目录

catauthorized_keys_from_master >> authorized_keys
这样在master上就能免密码登录slave1了

4. 安装jdk
我装的是jdk1.7.0_71,官网上下即可。

4.1解压jdk

tar -zxvf jdk_XXXX -C /usr

4.2配置环境变量

vim ~/.bashrc

在其中加入：

export JAVA_HOME=/usr/jdk1.7.0_71

export JRE_HOME=${JAVA_HOME}/jre

export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib

export PATH=${JAVA_HOME}/bin:$PATH

然后source ~/.bashrc使其立即生效

5. 安装和配置hadoop

5.1 解压hadoop

tar -zxvf hadoopXXX -C ~/

5.2配置hadoop（以下配置文件在~/hadoop/etc/hadoop里）

5.2.1 配置文件1：hadoop-env.sh

修改JAVA_HOME值（exportJAVA_HOME=/usr/jdk1.7.0_71）

5.2.2 配置文件2：yarn-env.sh

修改JAVA_HOME值（exportJAVA_HOME=/usr/jdk1.7.0_71）

5.2.3 配置文件3：slaves（这个文件里面保存所有slave节点）

在其中加入slave1

5.2.4 配置文件 core-site.xml 、 hdfs-site.xml 、 mapred-site.xml 这三个文件

参考 http://blog.csdn.net/ab198604/article/details/8250461

5.2.5 复制到其他节点

sudoscp -r ~/hadoop zrs @slave1:~/

5.2.6 修改环境变量

sudo vim /etc/environment

在PATH中加入/home/zrs/hadoop/bin:/home/zrs/hadoop/sbin

5.3 格式化namenode

hadoop namenode -format

6. 启动namenode

start-all.sh(此文件在~/hadoop/sbin）

用jps命令可查看正在工作的hadoop进程

至此，hadoop安装配置完成。

njuzrs

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop与spark的配置

参考网站：Linux下配置jdk1.7- Hustc的专栏 - 博客频道 - CSDN.NET高效搭建Spark完全分布式集群- 服务器负载均衡 - 次元立方网 - 电脑知识与技术互动交流平台hadoop学习之hadoop完全分布式集群安装- 落魄影子 - 博客频道 - CSDN.NEThadoop2.2完全分布式最新高可靠安装文档-Hadoop2|YARN-about云开发S
复制链接

扫一扫

专栏目录