hadoop | spark | hadoop的搭建和spark 的搭建

为了学习hadoopspark,开始了搭建这两的心酸路。下面来介绍下我是如何搭建的,大家可以模仿下,若是有遇到问题,请留言哟。

之前搭建成功过,后来冒出问题,一直没解决掉。这次算是搞定了。

hadoop 搭建

版本hadoop-2.7.1.tar.gz,去官网下载就可以。解压到ubuntu下hadoop用户的目录下。

第一步、配置java环境
http://www.oracle.com/technetwork/java/javase/downloads/index.html 下载合适你电脑系统的版本,解压到usr下。

按照这篇文章来配置java环境http://jingyan.baidu.com/article/48a42057f1f0a4a925250464.html ,并检测是否安装成功。

第二步、hadoop配置
修改hadoop解压文件下的etc/hadoop下的xml配置文件,如果不存在,请自己创建。(以我的为例)

  • hadoop-env.sh 修改配置,增加
 export JAVA_HOME=/usr/jdk
  • Slaves文件修改配置
    localhost (写入)

  • mapred-site.xml

下面的localhost要与Slaves的对应一致。

<!-- Put site-specific property overrides in this file. -->

<configuration>
   <property>
       <name>mapreduce.framework.name</name>
       <value>localhost</value>
    </property>
</configuration>
  • core-site.xml

9001是我开放的端口号,你可以自己设置

<configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://localhost:9001</value>
   </property>
   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>
</configuration>
  • yarn-site.xml
<configuration>
  <property>
     <name>yarn.nodemanager.aux-services</name>
     <value>mapreduce_shuffle</value>
  </property>

</configuration>

第三步、安装ssh
安装

 sudo apt-get install openssh-server  

启动ssh

/etc/init.d/ssh start

关闭防火墙

sudo ufw disable 

设置免密登录
参考博文http://www.cnblogs.com/LazyJoJo/p/6413640.html

第四步、启动服务
先切换到hadoop目录下
- 格式化HDFS

bin/hadoop namenode -format
  • 启动HDFS
sbin/start-dfs.sh
  • 启动YARN
sbin/start-yarn.sh

第四步、检测是否配置成功

/usr/jdk/bin/jps

9888 SecondaryNameNode
10437 NameNode
7958 ResourceManager
10582 DataNode
10982 Jps
10135 NodeManager

若是类似上述的结果,表明启动成功了。也就安装成功了。

注意:在windows下用虚拟机来安装,需要做进一步修改,不然下一次启动电脑时,所做的都会被还原掉。

在core-site.xml中增加以下两个配置:

<property>
   <name>dfs.namenode.name.dir</name>
   <value>/home/hadoop/hadoop/dfs/name</value>
</property>
</property>
    <name>dfs.datanode.data.dir</name>
    <value>/home/hadoop/hadoop/dfs/data</value>
</property>

若是不配置,默认为tmp下,每次启动都会重新一切,哈哈。安装这样来配置后,就不会出现问题了。

spark搭建

下载预编译的包,http://spark.apache.org/downloads.html ,解压到hadoop用户目录下。
先切换到spark目录下。我下载的是spark 2.1-hadoop2.7.1 这个版本的。

第一步,在tmp下建立文件夹hive

第二步、开始用起来

  • 调用Python接口
./bin/pyspark

没有报错说明成功了。

  • 调用scala接口
./bin/spark-shell

没有报错说明成功了。

http://blog.csdn.net/xxzhangx/article/details/55258263 这篇博客中的能运行,说明装好啦!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值