Spark学习笔记（三）-开始第一个spark程序

最新推荐文章于 2024-09-15 16:13:23 发布

log_zhan

最新推荐文章于 2024-09-15 16:13:23 发布

阅读量4.1k

点赞数

分类专栏：个人 Ubuntu spark

本文链接：https://blog.csdn.net/log_zhan/article/details/52575899

版权

个人同时被 3 个专栏收录

13 篇文章 3 订阅

订阅专栏

Ubuntu

8 篇文章 0 订阅

订阅专栏

spark

2 篇文章 0 订阅

订阅专栏

Spark学习笔记-开始第一个spark程序

　　在安装完Spark，其实最疑惑还是Spark怎么用的问题，由于也是刚学习linux，也不是很习惯linux下的命令行操作。按照Spark的官方文档，我们开始编写Spark的的第一个程序。

一、标准进入spark方式

　　很多人在安装完spark后就懵了，本人也是一样。毕竟spark在linux下没有什么桌面图标这种明显的东西。要启动Spark，我们先要进入Spark的目录下。我们在Unbutu桌面输入Ctrl+Alt+T 打开控制台，然后输入：

cd /usr/lib/spark/spark-1.4.0

　　这个路径是我的安装路径，也就是spark的目录。Spark一共提供了3中API 分别为 scala、java以及python，同时提供了scala和python的命令行操作。
　　
　　进入scala环境，输入：

./bin/spark-shell

　　进入python环境，输入：

./bin/pyspark

二、快捷进入spark方式

　　这个是官方提供的进入spark命令行的方式，实际上我发现直接呼出控制台然后直接输入spark-shell以及pyspark也能够直接进入相应的环境。如果能够直接进入spark的环境，那么就可以偷个懒直接输入spark-shell和pyspark。

三、编写spark的第一个程序

　　由于本人不太熟悉python，同时spark的官方例程也是scala编写的，所以这里的DEMO默认都是spark环境下的程序。
　　Spark最主要的抽象是RDD，前面一篇文章《Spark学习笔记-Spark-弹性分布式数据集RDDs》已经初步的总结了一下。RDD有很多的创建方式，我们甚至可以通硬盘中的一个txt文件创建一个RDD。
　　输入：

　　　　　　　　　　　　val textFile = sc.textFile("README.md")

　　得到：
　　　　　　　
　　
　　经过前面的语句我们可以得到RDD到textFile的映射，也就是textFile这个变量，同时textFile就是一个RDD。我们可以对它进行很多RDD的操作。
　　例如输入：

　　　　　　　　　　　　　　　　　　　textFile.count()

　　得到：
　　　　　　　　　　　　　　　　　　 res
　　说明：实际上spark运行过程中控制台还会输出其他信息，这里只输出最后的结果。还有一点就是本人在直接进入spark-shell时，这个例程运行出现错误，猜测这个地方和Matlab类似，有个目录的问题，这个README.md在spark的目录下面，如果直接进入可能导致spark找不到这个文件。