Spark学习笔记#1-快速入门

最新推荐文章于 2022-11-20 16:01:17 发布

Lauhoman

最新推荐文章于 2022-11-20 16:01:17 发布

阅读量2k

点赞数 1

分类专栏： Data Mining Python 文章标签： spark python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_26599509/article/details/51899451

版权

这篇博客是Spark学习笔记的第一部分，介绍了如何使用Spark Shell进行交互式分析，包括基础操作、RDD的变换和操作，以及如何缓存数据到内存。此外，还讲解了如何编写独立的PySpark程序，并给出了一个简单的计数示例。

摘要由CSDN通过智能技术生成

Spark学习笔记#1-快速入门

之前我已经安装配置好了PySpark，这里就按照Spark官网上的Quick Start来快速入门。这篇文章就当是Spark官网Doc的一个翻译和测试记录。

目录

-使用Spark Shell进行交互式分析
- –基本
- –更多基于RDD的操作
- –缓存
-独立的程序
-快速入门完之后的去向

这个教程提供了一个使用Spark的快速教程。我们将会首先通过Spark的交互式Shell介绍API（可以是Python，也可以是Scala），然后就展示一下怎么在Java、Scala和Python中写（独立的）应用程序。

更多详情可以进入编程指导。

想要学习这个指南，首先需要从Spark官网下载一个Spark的发行包。由于我们并不会用到HDFS，你可以下载一个适合任何版本的Hadoop的发行包。

注意：因为我没研究过Scala所以在这里提供的只有Python的代码，如有Scala代码的需要可以上原文查看。

使用Spark Shell进行交互式分析

基础

一个简单的学习API的方式就是使用Spark的shell，同时这个交互式shell也是一个强力的数据分析工具。它不仅能运行在Scala，还可以在Python上。从在Spark安装目录开始我们的第一步吧！

./bin/pyspark

注意：如果忘记了之前安装配置了的spark目录可以通过命令$which pyspark来找到该目录

Spark主要的概念就是一个叫RDD （Resilient Distributed Dataset）的分布式数据集。RDD可以通过Hadoop的InputFormats（比如说HDFS文件）或者通过从其他RDD变形来创建。我们来从任意一个文本文件做一个新的RDD吧！我这里选择的是我桌面上的一个文本文件fifo.c。

>>>textFile = sc.textFile("./Desktop/fifo.c")

注意：引号里面是文件的路径，可以根据自己的需要进行修改。

RDD本身是可以进行操作的，这些操作往往会返回一些

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
3
评论
Spark学习笔记#1-快速入门

Spark学习笔记#1-快速入门之前我已经安装配置好了PySpark，这里就按照Spark官网上的Quick Start来快速入门。这篇文章就当是Spark官网Doc的一个翻译和测试记录。目录使用Spark Shell进行交互式分析基本更多基于RDD的操作缓存独立的程序快速入门完之后的去向这个教程提供了一个使用Spark的快速教程。我们将会首先通过Spark的交互式Shell介绍AP
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。