使用 Spark Shell 进行交互式分析

本文介绍了如何使用 Spark Shell 进行交互式数据分析。通过 Spark Shell,你可以加载数据,执行各种转换和动作,如计数、过滤、统计最大行数等。此外,还展示了如何使用 map、reduce 和 cache 等操作来处理 RDD,以及如何创建独立的 Spark 应用程序。
摘要由CSDN通过智能技术生成
基础
提供了一种来学习该
比较简单的方式,以及一个来分析数据交互的强大的工具。在
(运行于
虚拟机之上,并能很
Spark
shell
API
Scala
Java
好的调用已存在的
类库)或者
中它是可用的。通过在
目录中运行以下的命令来启动它 :
Java
Python
Spark
Scala
./bin/spark-shell
Spark
的主要抽象是一个称为弹性分布式数据集(
)的分布式的
集合。
可以从
(例如
文件)
RDD
item
RDD
Hadoop
InputFormats
HDFS
或者通过其它
的转换来创建。让我们从源目录中的
文件中的文本创建一个新的
RDD
README
RDD :
Scala
scala> val textFile = sc.textFile("README.md")
textFile: org.apache.spark.rdd.RDD[String] = README.md
MapPartitionsRDD[1] at textFile at <console>:25
RDD
有可以返回值的
(动作),还有可以返回指定的新
(转换)。让我们启动一个新的
(动作) :
actions
RDD
transformations
actions
Scala
scala> textFile.count() // RDD items
res0: Long = 126
scala> textFile.first() // RDD item
res1: String = # Apache Spark
现在让我们使用一个
(转换)。我们将使用
(转换)来返回一个新的
(文件中
的一个子集)
transformation
filter
transaction
RDD
item
Scala
scala> val linesWithSpark = textFile.filter(line =>
line.contains("Spark"))
linesWithSpark: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[2]
at filter at <console>:27
我们可以链式操作
(转换) 和
(动作)。
transformation
action
基础
提供了一种来学习该
比较简单的方式,以及一个来分析数据交互的强大的工具。在
(运行于
虚拟机之上,并能很
Spark
shell
API
Scala
Java
好的调用已存在的
类库)或者
中它是可用的。通过在
目录中运行以下的命令来启动它 :
Java
Python
Spark
Scala
./bin/spark-shell
Spark
的主要抽象是一个称为弹性分布式数据集(
)的分布式的
集合。
可以从
(例如
文件)
RDD
item
RDD
Hadoop
InputFormats
HDFS
或者通过其它
的转换来创建。让我们从源目录中的
文件中的文本创建一个新的
RDD
README
RDD :
Scala
scala> val textFile = sc.textFile("README.md")
textFile: org.apache.spark.rdd.RDD[String] = README.md
MapPartitionsRDD[1] at textFile at <console>:25
RDD
有可以返回值的
(动作),还有可以返回指定的新
(转换)。让我们启动一个新的
(动作) :
actions
RDD
transformations
actions
Scala
scala> textFile.count() // RDD items
res0: Long = 126
scala> textFile.first() // RDD item
res1: String = # Apache Spark
现在让我们使用一个
(转换)。我们将使用
(转换)来返回一个新的
(文件中
的一个子集)
transformation
filter
transaction
RDD
item
Scala
scala> val linesWithSpark = textFile.filter(line =>
line.contains("Spark"))
linesWithSpark: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[2]
at filter at <console>:27
我们可以链式操作
(转换) 和
(动作)。
transformation
action
ApacheCN - Apache Spark 2.0.2 中文文档 - v0.1.0 - 加入我们
ApacheCN - Apache Spark 2.0.2 中文文档 - v0.1.0 - 加入我们
我们可以链式操作
(转换) 和
(动作)。
transformation
action
Scala
scala> textFile.filter(line => line.contains("Spark")).count() // How
many lines contain "Spark"?
res3: Long = 15
更多 RDD 上的操作
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值