hadoop大数据平台手动搭建-spark

Spark 是专为大规模数据处理而设计的快速通用的计算引擎。拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。由于spark使用依赖scala.所以一起安装。

 

1.解压文件

tar -zxvf /opt/spark-1.6.0-cdh5.8.0.tar.gz

tar -zxvf /opt/scala-2.10.4.tgz 

2.配置环境变量

# vim /etc/profile

在文件最后添加:

export SPARK_HOME=/opt/spark-1.6.0-cdh5.8.0

export SCALA_HOME=/opt/scala-2.10.4     

 

export PATH=.:$JAVA_HOME/bin:$SACLA_HOME/bin:$PATH                 //将scala路径添加进环境变量

3. 配置spark-env.sh

     Spark-env.sh文件中配置了spark运行时的一些环境、依赖项以及master和slaver的资源配置。    

    cp conf/spark-env.sh.template conf/spark-env.sh              //将spark-env.sh.template复制一份为spark-env.sh

 配置如下:

 

HADOOP_CONF_DIR=/opt/hadoop-2.6.0-cdh5.8.0/etc/hadoop

SPARK_LOCAL_IP=slave1    //这是指spark当前运行机器

SPARK_MASTER_IP=master //主节点ip

SPARK_CLASSPATH=$CLASSPATH:`find /opt/hadoop-2.6.0-cdh5.8.0 -name *.jar|tr '\n' ':'`

SPARK_LOCAL_DIRS=/opt/spark/

HADOOP_HOME=/opt/hadoop-2.6.0-cdh5

 

4.配置/opt/spark-1.6.0-cdh5.8.0/conf/slaves

master

slave1

slave2

5.拷贝整个目录到slave1,slave2

scp -r /opt/spark-1.6.0-cdh5.8.0 hadoop@slave1:/opt/

 

scp -r /opt/spark-1.6.0-cdh5.8.0 hadoop@slave2:/opt/

 

在slave1,slave2上修改spark-env.sh中的

SPARK_LOCAL_IP为当前机器名

 

5.验证



 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值