【Spark】2.Spark下载和入门

最新推荐文章于 2024-08-07 16:16:42 发布

fxflyflyfly

最新推荐文章于 2024-08-07 16:16:42 发布

阅读量623

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/fxflyflyfly/article/details/102569825

版权

spark 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

本文介绍了如何下载Spark，并通过Spark Shell进入Spark环境。讲解了Spark的核心概念，如SparkContext和RDD，强调了Spark利用函数式编程实现集群上的并行操作，例如使用filter在集群中查找包含特定单词的句子。

摘要由CSDN通过智能技术生成

Spark下载

Spark下载地址 http://spark.apache.org/downloads.html
选择包类型为“Pre-built for Hadoop 2.7 and later”，然后直接点击Download Spark，可以得到压缩包。也可以下载历史版本，不过注意Spark1.4之前不支持python3和R语言。
对于压缩包，直接解压即可，注意windowns系统路径中不要有空格
主要文件以及目录的名称作用
    README.md：包含Spark入门的简单使用说明
    bin：包含可以用来和Spark进行各种交互的一系列可执行文件
    core，streaming，python...：包含Spark项目主要组件的源代码
    examples：包含一些可以查看和运行的Spark程序

Spark中的Python shell
1.打开Spark Shell，进入Spark目录然后输入

bin\pyspark

界面如下：

在这里插入图片描述
运行例子：如下

该例子中，lines就是一个RDD，它是从本地文本文件创建出来的，我们可以对这个RDD进行各种并行操作，比如统计这个数据集中的元素个数，或者输出第一个元素。

Spark核心概念简介

从上层上来看，每一个Spark应用都由一个驱动器程序来发起集群上的各种并行操作。驱动器程序应该包含应用的main函数，并且定义了集群上的分布式数据集，还对分布式数据集应用了相关操作。在前面的例子，实际的驱动器程序就是Spark Shell本身。
驱动器程序通过一个SparkContext对象来访问Spark，这个对象代表对计算集群的一个连接。shell启动时已经自动创建了一个SparkContext对象，名叫做sc的变量。

在这里插入图片描述
拥有了SparkContext就可以用来创建RDD，同时Spark拥有很多可以传递函数的API，将对应操作运行在集群上。例如下例中查找所有含有“Spark”的句子。

Spark神奇的地方就在于想类似有filter这样基于函数的操作也可以在集群上并行操作。

独立应用

独立应用即在独立程序中使用Spark。例如在python，java，scala中使用。
在python中使用，只要将之写成python脚本，不过需要使用Spark自带的bin\spark-submit脚本来运行。该脚本会帮我们引入Python程序的Spark依赖。

from pyspark import SparkConf, SparkContext


conf = SparkConf().setMaster("local").setAppName("My App")
sc = SparkContext(conf = conf)

运行Python脚本

bin\spark-submit xxx.py

上述例子中展现了SparkContext的基本用法，传递了两个参数。
    集群URL：告诉Spark如何连接到集群上。
    应用名：这个值可以帮助在用户集群管理器的用户界面上找到应用。

fxflyflyfly

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录