1.使用Spark Shell进行交互式分析

最新推荐文章于 2024-04-16 23:58:33 发布

VIP文章万磁王0

最新推荐文章于 2024-04-16 23:58:33 发布

阅读量1k

点赞数

分类专栏：大数据文章标签： spark shell

本文链接：https://blog.csdn.net/meijie770342/article/details/79032133

版权

使用Spark Shell进行交互式分析

基础

Spark的shell提供了一个学习API的简单方法，也是一个交互式分析数据的强大工具。它可以在Scala（在Java VM上运行，因此是使用现有Java库的好方法）或Python中提供。通过在Spark目录中运行以下代码来启动它：

D:\spark-1.6.2-bin-hadoop2.6\bin>spark-shell

Spark的主要抽象是一个名为Resilient Distributed Dataset(RDD)。RDD可以通过Hadoop InputFormats（例如HDFS文件）或通过转换其他数据集来创建。让我们从Spark源目录中的README文件的文本中创建一个新的数据集：

scala> val textFile = sc.textFile("../README.md")
textFile: org.apache.spark.rdd.RDD[String] = README.md MapPartitionsRDD[5] at textFile at <console>:27

您可以直接从数据集中获取值，通过调用某些操作，或者转换数据集来获取新的值

scala> textFile.count()
res0: Long = 95

最低0.47元/天解锁文章

优惠劵

万磁王0

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
1.使用Spark Shell进行交互式分析

使用Spark Shell进行交互式分析基础Spark的shell提供了一个学习API的简单方法，也是一个交互式分析数据的强大工具。它可以在Scala（在Java VM上运行，因此是使用现有Java库的好方法）或Python中提供。通过在Spark目录中运行以下代码来启动它：D:\spark-1.6.2-bin-hadoop2.6\bin>spark-shellSpark的
复制链接

扫一扫