spark简单API入门

最新推荐文章于 2024-07-13 16:16:04 发布

82年的哇哈哈

最新推荐文章于 2024-07-13 16:16:04 发布

阅读量175

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/weixin_42201566/article/details/85698946

版权

spark 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

在Spark 2.0之前，Spark的主要编程接口是弹性分布式数据集（RDD）。在Spark 2.0之后，RDD被数据集取代，数据集类似于RDD一样强类型，但在底层有更丰富的优化。

Spark的shell用来学习API

启动命令：

./bin/spark-shell

Spark的主要抽象是一个名为Dataset的分布式项目集合。可以从HDFS或通过转换其他数据集来创建数据集。

例如：让我们从README文件的文本中创建一个新的数据集

scala> val textFile = spark.read.textFile("README.md")
textFile: org.apache.spark.sql.Dataset[String] = [value: string]

可以通过调用某些操作直接从Dataset获取值，或者转换数据集以获取新值。

scala> textFile.count() // 这个Dataset的总数
res0: Long = 126 // May be different from yours as README.md will change over time, similar to other outputs

scala> textFile.first() // Dataset的first item
res1: String = # Apache Spark

将这个数据集转换为新数据集。调用filter返回一个新的数据集。

scala> val linesWithSpark = textFile.filter(line => line.contains("Spark"))
linesWithSpark: org.apache.spark.sql.Dataset[String] = [value: string]

可以将转换和行动联系在一起：

scala> textFile.filter(line => line.contains("Spark")).count() // How many lines contain "Spark"?
res3: Long = 15

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

82年的哇哈哈

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

《大数据： Spark 客户端操作API》

yexiangCSDN的专栏

11-13

266

一、Spark 客户端操作API Spark Shell 仅在测试和验证我们的程序时使用的较多，在生产环境中，通常会在 IDE 中编制程序，然后打成 jar 包，然后提交到集群，最常用的是创建一个 Maven 项目，利用 Maven 来管理 jar 包的依赖 1. 准备使用的IDE 是 IDEA ，所以把这个工具安装一下，安装过程不过多，也自行网上解决或者留言这里说明下 eclipse和IDEA 的一个不同点就是： eclipse 的 workspace 对应的是 IDEA的 project，.

Spark 结构化API——基础操作

码基的博客

07-14

452

Spark 结构化API——基础操作基本概念 DataFrame：分布式，表格形式，行和列的集合；每一列的行数必须相同；列有特定的类型，列类型对所有行都一致。 Schema：定义DataFrame所有列的名字和类型。以下是如何查询一个结构化数据的schema（spark类型推断）： // in Scala spark.read.format("json").load("/data/flig...

参与评论您还未登录，请先登录后发表或查看评论

Spark基础API（cogroup）

weixin_37614967的博客

05-30

1096

cogroup函数是一个操作两个RDD的函数,且每个RDD是一个key-value类型；它可以把按照两个RDD的key进行分组，分组的结构是：元组第一个元素是一个key第二个元素是一个列表，其中第一个元素是RDD1的元素，第二个元素是RDD2的元素val pairRDD = sc.parallelize[(Int, Int)](Seq((1, 2), (3, 4), (3, 6), (5, 6))...

Spark基础API总结

weixin_37614967的博客

06-02

246

1. keyValue（单个RDD操作）(1)collectAsMap(把keyvalue的类型转换成Map,去掉重复的，后面覆盖前面的)scala> val pairRDD = sc.parallelize[(Int, Int)](Seq((1, 2), (3, 4), (3, 6)), 2)pairRDD: org.apache.spark.rdd.RDD[(Int, Int)] = P...

Spark API 详解（转）

微电子学与固体电子学-俞驰

03-09

349

spark中，slice=partition,一个slice对应一个task，启动task的数量上限取决于集群中核的数量 sc.parallelize(0until numMappers, numMappers)中的numMappers就是slice的数量[1] 下面的图来自[3] 在spark调优中，增大RDD分区数目，可以增大任务并行度 map(function) map...

Spark RDD API入门与实用操作

Spark RDD API是Apache Spark分布式计算框架的核心抽象，它是Resilient Distributed Dataset（RDD）的实现，为Spark平台提供了基础的数据操作手段。对于初学者来说，这份PDF文档是一个重要的学习资源，它涵盖了RDD的...

Spark学习总结-入门.rar_Spark!_spark_spark入门_大数据 spark

09-24

本文将基于“Spark学习总结-入门.rar”这份资料，对Spark的基础知识进行详细阐述，帮助读者深入理解Spark的核心概念和使用方法。 1. **Spark概述** Spark最初由加州大学伯克利分校AMPLab开发，后来成为Apache顶级...

spark java api 入门

carl918的博客

04-21

442

前提具备java,spark基本知识安装,配置要自己能搞定第一步，加入依赖 pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://mav...

Spark+快速入门共7页.pdf.zip

11-25

【Spark快速入门】指南 Spark，作为大数据处理领域的重要框架，是Apache软件基金会下的一个开源项目，由加州大学伯克利分校AMPLab开发并维护。它以高效、易用和可扩展性著称，尤其在大规模数据处理和分析中表现出色...

Spark 简单入门

专注大规模数据处理

08-19

4392

#used for mycat cache service conf factory.encache=org.opencloudb.cache.impl.EnchachePooFactory #key is pool name ,value is type,max size, expire seconds pool.SQLRouteCache=encache,10000,1800 pool.ER_

Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN

妳那伊抹微笑的专栏

09-20

863

Spark 编程指南概述 Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs) 并行集合外部 Datasets（数据集） RDD 操作基础传递 Functions（函数）给 Spark 理解闭包示例 Local（本地）vs. cluster（集群）模式打印 RDD 的

Spark 教程 - Apache Spark 在爱奇艺的应用实践

最新发布

qq_33240556的博客

07-13

445

爱奇艺作为中国领先的在线视频平台之一，广泛采用了Apache Spark来支持其大数据处理需求，涵盖了离线计算、流计算、数据同步和数据分析等多个场景。

spark常用api

m0_65385133的博客

03-28

275

【代码】spark常用api。

Apache Spark分布式计算框架架构介绍

qq_25409421的博客

07-08

1785

Spark 基于 Spark Core 建立了 Spark SQL、Spark Streaming、MLlib、GraphX、SparkR 核心组件，基于不同组件可以实现不同的计算任务，这些计算任务的运行模式有：本地模式、独立模式（Standalone）、Mesos 模式、 YARN 模式。Spark 任务的计算可以从 HDFS、S3、Hypertable、HBase或Cassandra等多种数据源中存取数据。

通过公共API访问导入数据到OpenTSDB

大JAVA解决方案

01-08

1082

更新时间： 2018-09-26 10:56 查看PDF SQL应用使用SQL方式编写一个完整的对接OpenTSDB代码的步骤如下：创建SparkSession。 import org.apache.spark.sql.SparkSession val sparkSession = SparkSession.builder().getOrCreate() ...

Spark从入门到精通

07-14

6、大量全网唯一的知识点：基于排序的wordcount，Spark二次排序，Spark分组取topn，DataFrame与RDD的两种转换方式，Spark SQL的内置函数、开窗函数、UDF、UDAF，Spark Streaming的Kafka Direct API、...

Spark入门及Java Api

yzh_1346983557的博客

07-09

8987

转载自：Spark基础与Java Api介绍一、Spark简介　　1、什么是Spark　　　　发源于AMPLab实验室的分布式内存计算平台，它克服了MapReduce在迭代式计算和交互式计算方面的不足。　　　　相比于MapReduce，Spark能充分利用内存资源提高计算效率。　　2、Spark计算框架　　　　Driver程序启动很多workers,然后workers在（分布式）文件系统中读取数据...

Spark常用API（五）

dzysunshine的博客

08-05

6421

文章目录1. spark集群搭建2. 初步认识Spark3. 理解spark的RDD4. 使用shell方式操作Spark，熟悉RDD的基本操作5. 使用jupyter连接集群的pyspark6. 理解Spark的shuffle过程7. 学会使用SparkStreaming8. 说一说take,collect,first的区别，为什么不建议使用collect？9. 向集群提交Spark程序10. ...

【spark-基础】基础概念及常见api

alexliu2360的专栏

03-21

3390

能今天做好的事就不要等到明天。以梦为马，学习趁年华。 1、学习路线一份好的roadmap很重要 2、技术笔记 2.1 RDD RDD是弹性分布式数据集，是一组不可变的JVM对象的分布及，可以执行高速运算，是spark的核心。 2.1.1 创建RDD # 集合生成ParallelCollectionRDD data = sc.parallelize([('alex',22),('alex',22),('alex',22),('alex',22)]) # 文件 4代表分区数生成MapPa.

Spark基础与Java Api介绍

weixin_30608131的博客

07-08

1700

原创文章，转载请注明：转载自http://www.cnblogs.com/tovin/p/3832405.html 一、Spark简介　　1、什么是Spark 　　　　发源于AMPLab实验室的分布式内存计算平台，它克服了MapReduce在迭代式计算和交互式计算方面的不足。　　　　相比于MapReduce，Spark能充分利用内存资源提高计算效率。　　2、Spark计算...