Spark学习笔记#1-快速入门

这篇博客是Spark学习笔记的第一部分,介绍了如何使用Spark Shell进行交互式分析,包括基础操作、RDD的变换和操作,以及如何缓存数据到内存。此外,还讲解了如何编写独立的PySpark程序,并给出了一个简单的计数示例。
摘要由CSDN通过智能技术生成

Spark学习笔记#1-快速入门

之前我已经安装配置好了PySpark,这里就按照Spark官网上的Quick Start来快速入门。这篇文章就当是Spark官网Doc的一个翻译和测试记录。

目录

  • -使用Spark Shell进行交互式分析
    • –基本
    • –更多基于RDD的操作
    • –缓存
  • -独立的程序
  • -快速入门完之后的去向

这个教程提供了一个使用Spark的快速教程。我们将会首先通过Spark的交互式Shell介绍API(可以是Python,也可以是Scala),然后就展示一下怎么在Java、Scala和Python中写(独立的)应用程序。

更多详情可以进入编程指导

想要学习这个指南,首先需要从Spark官网下载一个Spark的发行包。由于我们并不会用到HDFS,你可以下载一个适合任何版本的Hadoop的发行包。

注意:因为我没研究过Scala所以在这里提供的只有Python的代码,如有Scala代码的需要可以上原文查看。

使用Spark Shell进行交互式分析

基础

一个简单的学习API的方式就是使用Spark的shell,同时这个交互式shell也是一个强力的数据分析工具。它不仅能运行在Scala,还可以在Python上。从在Spark安装目录开始我们的第一步吧!

./bin/pyspark

注意:如果忘记了之前安装配置了的spark目录可以通过命令$which pyspark来找到该目录

Spark主要的概念就是一个叫RDD (Resilient Distributed Dataset)的分布式数据集。RDD可以通过Hadoop的InputFormats(比如说HDFS文件)或者通过从其他RDD变形来创建。我们来从任意一个文本文件做一个新的RDD吧!我这里选择的是我桌面上的一个文本文件fifo.c

>>>textFile = sc.textFile("./Desktop/fifo.c")

注意:引号里面是文件的路径,可以根据自己的需要进行修改。

RDD本身是可以进行操作的,这些操作往往会返回一些

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值