spark环境搭建

1. 安装java

  1. 下载解压
进入 Oracle 官方网站 下载合适的 JDK 版本,准备安装。
注意:这里需要下载 Linux 版本。这里以jdk1.8.0_60.tar.gz为例,你下载的文件可能不是这个版本,这没关系,只要后缀(.tar.gz)一致即可。
  1. 设置java 环境变量
vim /etc/profile

JAVA_HOME=/usr/java/jdk1.8.0_60
CLASSPATH=$JAVA_HOME/lib/
PATH=$PATH:$JAVA_HOME/bin
export PATH JAVA_HOME CLASSPATH
  1. 验证
java -version

java version "1.8.0_60"
Java(TM) SE Runtime Environment (build 1.8.0_60-b27)
Java HotSpot(TM) 64-Bit Server VM (build 25.60-b23, mixed mode)


2. 安装scala

  1. 下载scala
wget https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz
  1. 解压重命名文件
mv scala-2.11.8.tgz /usr/local 
tar -xvf scala-2.11.8.tgz
mv scala-2.11.8 scala 

3.配置环境变量

vim /etc/profile
export PATH=$PATH:/usr/local/scala/bin
source /etc/profile
  1. 验证
scala -version

//Scala code runner version 2.11.8 -- Copyright 2002-2016, LAMP/EPFL

3.安装spark

  1. 下载并解压重命名文件
mv spark-2.4.5-bin-hadoop2.7.tgz /usr/local 
tar -xvf spark-2.4.5-bin-hadoop2.7.tgz
mv spark-2.4.5-bin-hadoop2.7 spark 

2.配置环境变量

vim /etc/profile
export PATH=$PATH:/usr/local/spark/bin
source /etc/profile
  1. 验证
spark-shell
[root@iZbp1e67wmz30hykub1u4tZ spark]# spark-shell
20/03/02 00:43:37 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://iZbp1e67wmz30hykub1u4tZ:4040
Spark context available as 'sc' (master = local[*], app id = local-1583081034003).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.4.5
      /_/
         
Using Scala version 2.11.12 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_60)
Type in expressions to have them evaluated.
Type :help for more information.

scala> 

求PI的官方案例

spark-submit --class org.apache.spark.examples.SparkPi --executor-memory 1G --total-executor-cores 2 /usr/local/spark/examples/jars/spark-examples_2.11-2.4.5.jar 100
// 该算法是利用蒙特·卡罗算法求 PI
20/03/02 00:58:35 INFO DAGScheduler: Job 0 finished: reduce at SparkPi.scala:38, took 4.368829 s
Pi is roughly 3.1419255141925513
20/03/02 00:58:35 INFO SparkUI: Stopped Spark web UI at http://iZbp1e67wmz30hykub1u4tZ:4040

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Spark环境搭建与使用 Apache Spark是一个开源的大数据处理框架,可以快速、高效地处理大规模的数据集。它支持多种数据处理方式,包括批处理、流处理和机器学习等。 Spark可以在本地模式下运行,也可以在分布式模式下运行。在分布式模式下,Spark可以利用多台服务器的计算资源,进行大规模的数据处理。 本文将介绍如何在本地环境中搭建Spark,并通过一个简单的例子来演示Spark的使用。 Spark环境搭建 在开始之前,需要确认已经安装了Java环境。可以通过以下命令检查Java环境是否已经安装: ``` java -version ``` 如果Java环境没有安装,可以去官网下载并安装Java。 接下来,需要下载Spark。可以从官网下载最新版本的Spark。下载完成后,解压缩到指定目录。 打开终端,进入Spark的bin目录,执行以下命令启动Spark: ``` ./spark-shell ``` 这个命令将启动Spark的交互式Shell。在Shell中,可以输入Spark的API命令进行数据处理。 Spark使用示例 下面,通过一个简单的例子来演示Spark的使用。该例子将统计一组数字中的奇数个数。 首先,在Spark的Shell中,创建一个RDD: ``` val nums = sc.parallelize(1 to 10) ``` 这个命令将创建一个包含1到10的数字的RDD。接下来,通过filter()方法,筛选出奇数: ``` val odds = nums.filter(_ % 2 != 0) ``` 这个命令将创建一个包含奇数的RDD。最后,通过count()方法,计算奇数的个数: ``` val count = odds.count() ``` 这个命令将返回奇数的个数。可以通过以下命令输出结果: ``` println(count) ``` 这个例子演示了Spark的基本用法。通过Spark的API,可以快速、高效地处理大规模的数据集。 总结 本文介绍了如何在本地环境中搭建Spark,并通过一个简单的例子来演示Spark的使用。Spark是一个强大的大数据处理框架,可以帮助我们快速、高效地处理大规模的数据集。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值