Spark安装-环境搭建

Spark安装-环境搭建

1.1Spark简介

ApacheSpark 是用于大规模数据处理的统一分析引擎。是一个基于内存分布式计算框架。由于Spark基于内存,相对于hadoop的MapReduce等计算框架 大大提高了数据处理的实时性 ,同时Spark也i提供高容错性和可扩展性。

1.2Spark 发展

2009年诞生与加州大学

2012年 ,新版本包含了java的api

2016年 ,支持了kafka

1.3Spark优势

1:速度块

​ 与hadoop的MapReduce相比,基于内存的数据库使用Spark要比MapReduce快100个数量级别以上。速度提高了100倍。

2: 易用性

​ Spark程序支持开发者使用 java,Scala,Python,R 变成语言进行快色的开发。而且还提供了80多种高级api。

3:通用性

​ Spark提供一个强有力的一栈式通用的解决方案。SparkSql(交互式查询),SparkStreaming(实时流处理),机器学习,图计算。

4:兼容性

​ Spark与其他的开源产品兼容性很好,例如 Spark可以兼容hadoop。

2.1Spark的环境搭建

2.1.1基本环境

​ Spark可以在windows环境和linux环境上机型运行,Spark可以java8 ,R3.1,Python 2.7.

​ Scala需要2.11以上的版本。

2.1.2Sprak 的运行模式

Spark有四种运行模式 :

1:local 单机模式 ,一般用于开发测试。

2:Yarn Spark客户端直接Yarn。

3:Standalone 构建一个有Master和Worker 构造Spark集群,在集群中运行。

4:Mesos ,Spark客户端直接连接Mesos,不需要额外的构建Spark集群

3.1Spark的安装

3.1.1 Spark的下载

#将安装文件上传到 download目录下
rz

本次安装我们使用单机模式 。

需要注意 :先完成 linux系统,JDK 安装 ,hadoop安装 之后 才能安装 Spark

3.1.2解压Spark文件

#解压文件
tar -zxvf spark-2.4.5-bin-without-hadoop.tgz  -C /usr/local/
#修改目录名称
mv spark-2.4.5-bin-without-hadoop/ spark

3.1.3 配置相关文件

安装文件解压以后 ,还需要创建一个Spark的配置文件 ,我们直接复制一个由Spark提供配置文件模板,

#进入到spark的目录下
cd /usr/local/spark/
# 从模板中复制一个配置文件
cp ./conf/spark-env.sh.template ./conf/spark-env.sh

复制出来配置文件之后 ,我们要进行修改 ,要将hadoop的安装目录 添加到配置文件中去

#使用vim修改我们复制出来的配置文件
vim ./conf/spark-env.sh
# 在配置文件中添加一下信息
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

配置完成之后 ,我们运行Spark自带的案例 ,获取Pi的近似值(圆周率)

#输入命令获取pi的近似值
./bin/run-example SparkPi 2>&1 |grep "Pi is roughly"
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

@莫等闲

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值