Spark学习笔记#1-快速入门
之前我已经安装配置好了PySpark,这里就按照Spark官网上的Quick Start来快速入门。这篇文章就当是Spark官网Doc的一个翻译和测试记录。
目录
- -使用Spark Shell进行交互式分析
- –基本
- –更多基于RDD的操作
- –缓存
- -独立的程序
- -快速入门完之后的去向
这个教程提供了一个使用Spark的快速教程。我们将会首先通过Spark的交互式Shell介绍API(可以是Python,也可以是Scala),然后就展示一下怎么在Java、Scala和Python中写(独立的)应用程序。
更多详情可以进入编程指导。
想要学习这个指南,首先需要从Spark官网下载一个Spark的发行包。由于我们并不会用到HDFS,你可以下载一个适合任何版本的Hadoop的发行包。
注意:因为我没研究过Scala所以在这里提供的只有Python的代码,如有Scala代码的需要可以上原文查看。
使用Spark Shell进行交互式分析
基础
一个简单的学习API的方式就是使用Spark的shell,同时这个交互式shell也是一个强力的数据分析工具。它不仅能运行在Scala,还可以在Python上。从在Spark安装目录开始我们的第一步吧!
./bin/pyspark
注意:如果忘记了之前安装配置了的spark目录可以通过命令$which pyspark
来找到该目录
Spark主要的概念就是一个叫RDD (Resilient Distributed Dataset)的分布式数据集。RDD可以通过Hadoop的InputFormats(比如说HDFS文件)或者通过从其他RDD变形来创建。我们来从任意一个文本文件做一个新的RDD吧!我这里选择的是我桌面上的一个文本文件fifo.c
。
>>>textFile = sc.textFile("./Desktop/fifo.c")
注意:引号里面是文件的路径,可以根据自己的需要进行修改。
RDD本身是可以进行操作的,这些操作往往会返回一些