Spark的安装方法

Spark安装方法(standalone模式)

一、简单认知,什么是Spark?

     Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,(注:如果不保存将会消失)因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
官网对spark速度介绍:
Speed
Run programs up to 100x faster than Hadoop MapReduce in memory, or 10x faster on disk.也就是说Spark比hadoop快100倍,当然官方拿来测试的例子IO读写操作比较多,这正是Hadoop的不足和Spark基于内存计算的长处。

二、Spark的下载

官网下载地址( http://spark.apache.org/downloads.html)点击箭头指示方向下载
(注:可以在选项一选择Spark的发行版本,选项二中选择下载的包类型,选项三选择下载类型。)

三、Spark的安装

安装前确定你的jdk已经安装过了
把文件上传到你的linux机器上找到该文件
1、解压文件:
tar -zxvf spark-1.6.1-bin-hadoop2.6.tar.gz
后面的参数根据你下载的文件版本名而定
2、找到conf目录打开
cd spark-1.6.1-bin-hadoop2.6/conf/
3、修改spark的环境变量文件spark-env.sh
vim spark-env.sh
添加以下配置
export JAVA_HOME=/opt/jdk1.8.0_121
    export SPARK_MASTER_IP=master
    export SPARK_MASTER_PORT=7077
    export HADOOP_CONF_DIR=/home/hadoop/software/hadoop-2.7.3
注意:这里的JAVA_HOME为你的java安装目录
SPARK_MASTER_IP为你的master节点的ip地址,可以写hostname前提是你配置了hosts文件中的ip映射
SPARK_MASTER_PORT为端口号
最后一个为你的Hadoop配置目录,可以不写
4、修改slaves文件
在slaves文件中添加作为worker结点的ip地址(可以写hostname前提是你的hosts文件中配置了ip映射),类似于Hadoop配置中的slaves文件
5、分发文件到其他结点
如果你配置了ssh免密码登录的话可以使用命令:
scp -r spark-1.6.1-bin-hadoop2.6/ slave01:~/software/
注意这里slave01为我的worker结点hostname
顺便介绍一下快速配置ssh的命令(ssh-copy-id hostname)
6、测试是否安装成功
使用命令
./sbin/start-all.sh 
或者进入spark-1.6.1-bin-hadoop2.6目录下的sbin目录中使用./start-all.sh
完成启动之后jps命令查看master和worker的运行状态

Spark为主从结构,看见worker和master都启动成功,表示安装成功














评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

天心有情

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值