Spark的安装方法

最新推荐文章于 2024-07-06 05:35:14 发布

天心有情

最新推荐文章于 2024-07-06 05:35:14 发布

阅读量626

点赞数 1

分类专栏： Spark 文章标签： spark安装

本文链接：https://blog.csdn.net/sinat_35045195/article/details/71082609

版权

Spark 专栏收录该内容

29 篇文章 0 订阅

订阅专栏

Spark安装方法（standalone模式）

`一、简单认知，什么是Spark？`

     Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，（注：如果不保存将会消失）因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

官网对spark速度介绍：

 
  
    Speed 
   
  
    Run programs up to 100x faster than Hadoop MapReduce in memory, or 10x faster on disk.也就是说Spark比hadoop快100倍，当然官方拿来测试的例子IO读写操作比较多，这正是Hadoop的不足和Spark基于内存计算的长处。 
  
二、Spark的下载 
  
    官网下载地址（ 
   http://spark.apache.org/downloads.html）点击箭头指示方向下载 
   
   
   
    
   
  
    （注：可以在选项一选择Spark的发行版本，选项二中选择下载的包类型，选项三选择下载类型。） 
  
三、Spark的安装 
  
    安装前确定你的jdk已经安装过了 
   
  
    把文件上传到你的linux机器上找到该文件 
   
  
    1、解压文件：

tar -zxvf spark-1.6.1-bin-hadoop2.6.tar.gz 
    
    
    后面的参数根据你下载的文件版本名而定 
    
   
     2、找到conf目录打开 
    
    
    cd spark-1.6.1-bin-hadoop2.6/conf/
 
    3、修改spark的环境变量文件spark-env.sh 
    
    
    vim spark-env.sh 
    添加以下配置 
    
    
    export JAVA_HOME=/opt/jdk1.8.0_121
    export SPARK_MASTER_IP=master
    export SPARK_MASTER_PORT=7077
    export HADOOP_CONF_DIR=/home/hadoop/software/hadoop-2.7.3
 
    注意：这里的JAVA_HOME为你的java安装目录 
    
    
    SPARK_MASTER_IP为你的master节点的ip地址，可以写hostname前提是你配置了hosts文件中的ip映射 
    
    
    SPARK_MASTER_PORT为端口号 
    
    
    最后一个为你的Hadoop配置目录，可以不写 
    
    
    4、修改slaves文件 
    
    
    在slaves文件中添加作为worker结点的ip地址（可以写hostname前提是你的hosts文件中配置了ip映射），类似于Hadoop配置中的slaves文件 
    
    
    5、分发文件到其他结点 
    
    
    如果你配置了ssh免密码登录的话可以使用命令： 
    
    
     
    scp -r spark-1.6.1-bin-hadoop2.6/ slave01:~/software/ 
    注意这里slave01为我的worker结点hostname 
    
    
    顺便介绍一下快速配置ssh的命令（ssh-copy-id hostname） 
    
    
    6、测试是否安装成功 
    
    
    使用命令 
    
    
    ./sbin/start-all.sh  
    或者进入spark-1.6.1-bin-hadoop2.6目录下的sbin目录中使用./start-all.sh 
    
    
    完成启动之后jps命令查看master和worker的运行状态 
    
    
    
  
    
    
    Spark为主从结构，看见worker和master都启动成功，表示安装成功