SPARK环境搭建

准备工作 

一套搭建好的hadoop环境

下载scala、spark安装包

1、安装scala

tar -xzvf scala-2.12.3.tgz

2、安装spark

tar -xzvf spark-2.2.0-bin-hadoop2.7.tgz

3、修改 、/etc/profile文件

JAVA_HOME=/usr/java/jdk1.8.0_144/
HADOOP_HOME=/opt/hadoop-2.7.4
SCALA_HOME=/opt/scala-2.12.3
SPARK_HOME=/opt/spark-2.2.0-bin-hadoop2.7
PATH=$PATH:$JAVA_HOME/bin:/usr/bin:/usr/sbin:/bin:/sbin:/usr/X11R6/bin:$HADOOP_HOME/bin:$PATH:$SPARK_HOME/bin:$SCALA_HOME/bin
CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar
export JAVA_HOME PATH CLASSPATH

4、启动spark

/opt/spark-2.2.0-bin-hadoop2.7/sbin/start-all.sh

5、验证

http://主机IP:8080

 截图201781617502.png

 

打开spark所在目录 运行spark-shell

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Spark环境搭建与使用 Apache Spark是一个开源的大数据处理框架,可以快速、高效地处理大规模的数据集。它支持多种数据处理方式,包括批处理、流处理和机器学习等。 Spark可以在本地模式下运行,也可以在分布式模式下运行。在分布式模式下,Spark可以利用多台服务器的计算资源,进行大规模的数据处理。 本文将介绍如何在本地环境中搭建Spark,并通过一个简单的例子来演示Spark的使用。 Spark环境搭建 在开始之前,需要确认已经安装了Java环境。可以通过以下命令检查Java环境是否已经安装: ``` java -version ``` 如果Java环境没有安装,可以去官网下载并安装Java。 接下来,需要下载Spark。可以从官网下载最新版本的Spark。下载完成后,解压缩到指定目录。 打开终端,进入Spark的bin目录,执行以下命令启动Spark: ``` ./spark-shell ``` 这个命令将启动Spark的交互式Shell。在Shell中,可以输入Spark的API命令进行数据处理。 Spark使用示例 下面,通过一个简单的例子来演示Spark的使用。该例子将统计一组数字中的奇数个数。 首先,在Spark的Shell中,创建一个RDD: ``` val nums = sc.parallelize(1 to 10) ``` 这个命令将创建一个包含1到10的数字的RDD。接下来,通过filter()方法,筛选出奇数: ``` val odds = nums.filter(_ % 2 != 0) ``` 这个命令将创建一个包含奇数的RDD。最后,通过count()方法,计算奇数的个数: ``` val count = odds.count() ``` 这个命令将返回奇数的个数。可以通过以下命令输出结果: ``` println(count) ``` 这个例子演示了Spark的基本用法。通过Spark的API,可以快速、高效地处理大规模的数据集。 总结 本文介绍了如何在本地环境中搭建Spark,并通过一个简单的例子来演示Spark的使用。Spark是一个强大的大数据处理框架,可以帮助我们快速、高效地处理大规模的数据集。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值