【Spark】2.Spark下载和入门

本文介绍了如何下载Spark,并通过Spark Shell进入Spark环境。讲解了Spark的核心概念,如SparkContext和RDD,强调了Spark利用函数式编程实现集群上的并行操作,例如使用filter在集群中查找包含特定单词的句子。
摘要由CSDN通过智能技术生成

Spark下载

Spark下载地址 http://spark.apache.org/downloads.html
选择包类型为“Pre-built for Hadoop 2.7 and later”,然后直接点击Download Spark,可以得到压缩包。也可以下载历史版本,不过注意Spark1.4之前不支持python3和R语言。
对于压缩包,直接解压即可,注意windowns系统路径中不要有空格
主要文件以及目录的名称作用
    README.md:包含Spark入门的简单使用说明
    bin:包含可以用来和Spark进行各种交互的一系列可执行文件
    core,streaming,python...:包含Spark项目主要组件的源代码
    examples:包含一些可以查看和运行的Spark程序

Spark中的Python shell
1.打开Spark Shell,进入Spark目录然后输入

bin\pyspark  
界面如下:

在这里插入图片描述
运行例子:如下
在这里插入图片描述

该例子中,lines就是一个RDD,它是从本地文本文件创建出来的,我们可以对这个RDD进行各种并行操作,比如统计这个数据集中的元素个数,或者输出第一个元素。

Spark核心概念简介

从上层上来看,每一个Spark应用都由一个驱动器程序来发起集群上的各种并行操作。驱动器程序应该包含应用的main函数,并且定义了集群上的分布式数据集,还对分布式数据集应用了相关操作。在前面的例子,实际的驱动器程序就是Spark Shell本身。
驱动器程序通过一个SparkContext对象来访问Spark,这个对象代表对计算集群的一个连接。shell启动时已经自动创建了一个SparkContext对象,名叫做sc的变量。

在这里插入图片描述
拥有了SparkContext就可以用来创建RDD,同时Spark拥有很多可以传递函数的API,将对应操作运行在集群上。例如下例中查找所有含有“Spark”的句子。
在这里插入图片描述
Spark神奇的地方就在于想类似有filter这样基于函数的操作也可以在集群上并行操作。

独立应用

独立应用即在独立程序中使用Spark。例如在python,java,scala中使用。
在python中使用,只要将之写成python脚本,不过需要使用Spark自带的bin\spark-submit脚本来运行。该脚本会帮我们引入Python程序的Spark依赖。
from pyspark import SparkConf, SparkContext


conf = SparkConf().setMaster("local").setAppName("My App")
sc = SparkContext(conf = conf)   
运行Python脚本
bin\spark-submit xxx.py
上述例子中展现了SparkContext的基本用法,传递了两个参数。
    集群URL:告诉Spark如何连接到集群上。
    应用名:这个值可以帮助在用户集群管理器的用户界面上找到应用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值