hadoop大数据平台手动搭建-spark

最新推荐文章于 2024-10-13 20:28:02 发布

iteye_12854

最新推荐文章于 2024-10-13 20:28:02 发布

阅读量233

点赞数

分类专栏： spark 文章标签：大数据 scala 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/iteye_12854/article/details/82680506

版权

spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Spark 是专为大规模数据处理而设计的快速通用的计算引擎。拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。由于spark使用依赖scala.所以一起安装。

1.解压文件

tar -zxvf /opt/spark-1.6.0-cdh5.8.0.tar.gz

tar -zxvf /opt/scala-2.10.4.tgz

2.配置环境变量

# vim /etc/profile

在文件最后添加：

export SPARK_HOME=/opt/spark-1.6.0-cdh5.8.0

export SCALA_HOME=/opt/scala-2.10.4

export PATH=.:$JAVA_HOME/bin:$SACLA_HOME/bin:$PATH //将scala路径添加进环境变量

3. 配置spark-env.sh

Spark-env.sh文件中配置了spark运行时的一些环境、依赖项以及master和slaver的资源配置。

cp conf/spark-env.sh.template conf/spark-env.sh //将spark-env.sh.template复制一份为spark-env.sh

配置如下：

HADOOP_CONF_DIR=/opt/hadoop-2.6.0-cdh5.8.0/etc/hadoop

SPARK_LOCAL_IP=slave1 //这是指spark当前运行机器

SPARK_MASTER_IP=master //主节点ip

SPARK_CLASSPATH=$CLASSPATH:`find /opt/hadoop-2.6.0-cdh5.8.0 -name *.jar|tr '\n' ':'`

SPARK_LOCAL_DIRS=/opt/spark/

HADOOP_HOME=/opt/hadoop-2.6.0-cdh5

4.配置/opt/spark-1.6.0-cdh5.8.0/conf/slaves

master

slave1

slave2

5.拷贝整个目录到slave1,slave2

scp -r /opt/spark-1.6.0-cdh5.8.0 hadoop@slave1:/opt/

scp -r /opt/spark-1.6.0-cdh5.8.0 hadoop@slave2:/opt/

在slave1,slave2上修改spark-env.sh中的

SPARK_LOCAL_IP为当前机器名

5.验证

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。