idea搭建scala环境_Win10 Spark2.5 Idea 2019 开发环境搭建

本文使用 Zhihu On VSCode 创作并发布

Spark 是一个基于分布式文件系统的计算框架,和MapReduce处于同等的地位,其下是分布式文件系统HDFS、Yarn、Mesos等资源管理调度系统。和MapReduce相比,其主要的优势是基于内存进行计算,将计算中用到的变量、中间文件等尽量存储到计算机内存中,而MapReduce是将其存储到磁盘上。因此Spark 会比MapReduce快。 随着互联网的发展,现在大家逐渐以Spark作为计算框架,来开发大数据应用。生产环境下,我们一般是基于Centos/Ubuntu等Linux发行版,来搭建环境。在Windows下,我们可以搭建单机环境,来进行开发验证。

1. JDK、Scala环境搭建

Scala 是在java基础上,构建的语言,其优势是函数式编程。而Hadoop 是使用Scala 进行开发的。所以我们必须先搭建这两个的开发环境。

JDK

  • 下载、安装
    首先,去Oracle 官方下载jdk windows的版本,其网址如下: 下载地址

  • 配置环境变量
    新建 JAVA_HOME 变量,并在Path 中加入 %JAVA_HOME%jrebin%JAVA_HOME%bin

    e43e1560660d21fa89b9379cef507102.png
    Image

    ed6cd88a0362be674d5583744171eb84.png
    Image

Scala

  • 下载、安装scal 下载地址

    f696752ac67a4986aba3458a12bee752.png
    Image
  • 验证scala 是否安装好,打开cmd命令,输入scala -version 命令。

    a00d47d216abbc4215c33569e603bf6a.png
    Image

2. Spark 环境搭建

Spark的安装主要是下载和配置环境变量两部分。

  • 下载
    Spark提供了下载链接,可以在上选择合适的版本进行下载。 https://spark.apache.org/downloads.html
  • 解压
    将下载后的文件,解压到合适的地方,选择一个磁盘空间较大的地方
  • 配置环境变量

    7998792dce77b4f7d06f7f3cd7a595ca.png
    Image
  • spark 提供了spark-shell作为交互式编辑器,用户可以在spark-sheel中进行交互式编辑。

    a161b9d8a4d1f1f868118c34b12dd87c.png
    Image

3. Hadoop 单节点环境搭建

Hadoop 的版本必须和Spark的版本相互适应。因此,必须下载合适的版本。 https://hadoop.apache.org/releases.html 同时,在window系统上搭建hadoop 环境时,必须进行相应的处理。

  • 下载对应的hadoop 版本
  • 解压至合适的地方
  • 下载winutils,该文件为hadoop 在windows下的运行文件https://github.com/steveloughran/winutils 可以参考hadoop的版本,进行下载。
  • 将winutils 中对应版本中的文件,拷贝,替换hadoop bin目录下的文件
  • 配置hadoop 的环境变量

    beaf8f4c2568fd7ea286c07fd597a8b9.png
    Image

d3e99cd6b3ff3389475f4b2d187def8c.png
Image
  • 修改hadoop 配置文件
    在 haddop 的安装目录下,其etc/hadoop下存储的是hadoop的配置文件。默认情况下,hadoop 会将运行文件存储到用户目录下的临时文件中。这样在出现问题的时候,我们不好排查,最好将对其进行配置。
  1. 打开core-site.xml文件,配置namenode的对外服务端口

    258e02508eeeb25a6e0949c83e073373.png
    Image
  2. 配置hdfs中,namenode 和datanode的数据存储地址,以及数据的备份数量。

    0856c0a691e884aca5b6b25670c311d7.png
    Image
  • 启动hdfs 打开命令行,定位到hadoop的安装目录,输入./sbin/start-hdfs.cmd 命令,启动hdfs。

4. Idea 开发环境搭建

  • 首先给IDEA安装scala 插件
  • 在idea中配置scal-SDK 作为全局sdk

    1b949e827e66af52d8b3740bc1c1c744.png
    Image
  • 在idea中将spark 安装目录下的jars 文件夹下的jar包添加

    89a26741651891f2d9ccb7a87c52e37e.png
    Image

5. 注意点

  • 在开发spark应用程序时,必须引用spark提供的相应jar包。其jar包开发的scala版本,必须和本地安装的scala版本保持一致。
<dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.12</artifactId>
            <version>${spark.version}</version>
</dependency>
  • 在安装jdk的时候,尽量不要选择有空格的目录,比如说C:Program Files 这个目录,这样的空格会导致spark在启动时出错。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值