Spark概述和环境搭建

最新推荐文章于 2024-07-25 09:48:00 发布

弗瑞得姆

最新推荐文章于 2024-07-25 09:48:00 发布

阅读量260

点赞数

文章标签：大数据 spark

本文链接：https://blog.csdn.net/aiyin9511/article/details/105582383

版权

为什么学习Spark

Spark是一个开源的类似于Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点**；但不同于MapReduce的是**Spark中的Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。
Spark是MapReduce的替代方案，而且兼容HDFS、Hive，可融入Hadoop的生态系统，以弥补MapReduce的不足

Spark特点

快

与Hadoop的MapReduce相比，Spark基于内存的运算要快100倍以上，基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎，可以通过基于内存来高效处理数据流。
在这里插入图片描述

易用

Spark支持Java、Python和Scala的API，还支持超过80种高级算法，使用户可以快速构建不同的应用。而且Spark支持交互式的Python和Scala的shell，可以非常方便地在这些shell中使用Spark集群来验证解决问题的方法。
在这里插入图片描述

通用

Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）。这些不同类型的处理都可以在同一个应用中无缝使用。Spark统一的解决方案非常具有吸引力，毕竟任何公司都想用统一的平台去处理遇到的问题，减少开发和维护的人力成本和部署平台的物力成本。

兼容性

Spark集群安装

1 下载spark安装包
下载地址spark官网：http://spark.apache.org/downloads.html
这里我们使用 spark-2.0.2-bin-hadoop2.7版本.

2 规划安装目录
/opt/bigdata
3 解压安装包
tar -zxvf spark-2.0.2-bin-hadoop2.7.tgz
4 重命名目录
mv spark-2.0.2-bin-hadoop2.7 spark
5 修改配置文件

配置文件目录在 /opt/bigdata/spark/conf
 vi spark-env.sh 修改文件(先把spark-env.sh.template重命名为spark-env.sh)

#配置java环境变量
export JAVA_HOME=/opt/bigdata/jdk1.7.0_67
#指定spark老大Master的IP
export SPARK_MASTER_HOST=hdp-node-01
#指定spark老大Master的端口
export SPARK_MASTER_PORT=7077

 vi slaves 修改文件(先把slaves.template重命名为slaves)

hdp-node-02
hdp-node-03

6 拷贝配置到其他主机
通过scp 命令将spark的安装目录拷贝到其他机器上

scp -r /opt/bigdata/spark hdp-node-03:/opt/bigdata

7 配置spark环境变量
将spark添加到环境变

最低0.47元/天解锁文章

弗瑞得姆

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark概述和环境搭建

为什么学习SparkSpark是一个开源的类似于Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点**；但不同于MapReduce的是**Spark中的Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map redu...
复制链接

扫一扫