Spark环境搭建

前言

因为公司项目有用到,整理了一下,特此记录 .网上教程几乎都是全家桶,上来就是安装Scala,Spark,Hadoop.不清楚为什么要安装,自己是否需要安装.又因为安装环境是学习的第一步,所以基本处于懵逼状态!

Scala,Spark,Hadoop介绍

什么是spark?

  Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

下面是官网上的一段话:

Get Spark from the downloads page of the project website. This documentation is for Spark version 2.4.0. Spark uses Hadoop’s client libraries for HDFS and YARN. Downloads are pre-packaged for a handful of popular Hadoop versions. Users can also download a “Hadoop free” binary and run Spark with any Hadoop version by augmenting Spark’s classpath. Scala and Java users can include Spark in their projects using its Maven coordinates and in the future Python users can also install Spark from PyPI.
If you’d like to build Spark from source, visit Building Spark.
Spark runs on both Windows and UNIX-like systems (e.g. Linux, Mac OS). It’s easy to run locally on one machine — all you need is to have javainstalled on your system PATH, or the JAVA_HOME environment variable pointing to a Java installation.
Spark runs on Java 8+, Python 2.7+/3.4+ and R 3.1+. For the Scala API, Spark 2.4.0 uses Scala 2.11. You will need to use a compatible Scala version (2.11.x).
Note that support for Java 7, Python 2.6 and old Hadoop versions before 2.6.5 were removed as of Spark 2.2.0. Support for Scala 2.10 was removed as of 2.3.0.

从上面可以看出:

  1. Spark 需要借助Hadoop客户端的库去使用 HDFS and YARN
    (yarn是作业调度和集群资源管理的一个框架。Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。)
  2. 你可以选择官方提前打包好的继承了某些稳定Hadoop版本的Spark,也可以随意搭配任意版本的Hadoop版本编译使用
  3. Scala 和Java使用者通过maven坐标将Spark引入项目
  4. Spark 支持Windows 和 类UNIX操作系统
  5. 配置好java环境Spark 就可以轻松的运行在一台机器上
  6. Spark 运行需要 Java 8+, Python 2.7+/3.4+ and R 3.1+.

什么是Hadoop?

  Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
  用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

什么是Scala?

  Scala是一门多范式的编程语言,一种类似java的编程语言 ,设计初衷是实现可伸缩的语言 、并集成面向对象编程和函数式编程的各种特性。

  所以使用Spark不一定需要安装Hadoop,也不一定需要安装Scala。Spark提供Java,Scala,Python和R中的高级API,以及支持通用执行图的优化引擎。如果不依赖Hadoop的hdfs进行持久化,则不需要Hadoop。如果不使用yarn模式启动集群,也不需要Hadoop。

Scala windows下安装

  1. 去官网 https://www.scala-lang.org/
  2. 下载页面 https://www.scala-lang.org/download/
  3. Scala 安装两种方式
    A. 通过ide安装,
    首先确定已经安装好Java8 jdk
    在IDEA的启动界面点击 Configure -> Plugins,然后搜索Scala,点击 Install 即可
    与其他编程语言相比,Scala有点不一样。Scala不是安装在系统范围内,而是为每一个Scala项目安装一个版本,通过ide可以为你创建的每一个项目管理一个定制版的Scala
    B.其他方式安装
    你可以选择它双击安装
    在这里插入图片描述
    你也可以选择它解压缩
    在这里插入图片描述
    在这里插入图片描述
    配置环境变量,添加到path中
    在这里插入图片描述
    执行命令
    scala -version
    在这里插入图片描述
    安装成功.
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值