Spark初试

本文档详细介绍了在MACOS上安装Java和Spark的步骤,包括下载、安装、配置环境变量以及测试Spark-shell和Pyspark本地运行。通过创建并读取words.txt文件,展示了Spark处理文本数据的基本操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Spark 本地安装(MAC OS)

1.安装Java

2. 安装Spark

Downloads are pre-packaged for a handful of popular Hadoop versions. Users can also download a “Hadoop free” binary and run Spark with any Hadoop version by augmenting Spark’s classpath.

  • 此处下载已经打包了Hadoop的版本在这里插入图片描述
  • 将安装包移动到安装路径下,并进行解压
sudo tar -zvxf ***.tgz
  • 在安装路径下启动命令行,测试是否已经安装成功
    在这里插入图片描述
  • 配置环境变量,方便在终端中打开
export SPARK_HOME=/opt/spark-3.2.1-bin-hadoop3.2
export PATH=$PATH:$SPARK_HOME/bin
  • 配置文件生效
source ~/.zshrc

成功后,测试如下
在这里插入图片描述


Spark-shell本地测试

  • 创建一个文件words.txt
hello world
hadoop spark spark
hello world
  • 在命令行键入
val lines = sc.textFile("/tmp/words.txt")
lines.count()
lines.first()

在这里插入图片描述

  • 退出spark
:quit

Pyspark本地测试

窗口测试

  • 在命令行输入pyspark调动Python接口
    在这里插入图片描述

  • 在命令行键入

lines = sc.textFile("/tmp/words.txt")
lines.count()
lines.first()

Python程序执行

import findspark
findspark.init()  # 初始化找到本机安装的spark环境

from pyspark import SparkConf
from pyspark import SparkContext
sc = SparkContext("local", "count app")
words = sc.parallelize(
    ["scala",
     "java",
     "hadoop",
     "spark",
     "akka",
     "spark vs hadoop",
     "pyspark",
     "pyspark and spark"
     ])
counts = words.count()
print("Number of elements in RDD -> %i" % counts)
print(words.first())

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值