![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 81
Spark学习记录。
Alfred_XiaJL
路虽远,行则将至;事虽难,做则必成。
展开
-
Spark Sql编程实践
1 DataFrame编程代码中创建DataFrame//1.先创建SparkSessionval spark = SparkSession.builder() .appName("CreateDF").master("local[2]") .getOrCreate()//2.通过SparkSession创建DFval df = spark.read.json("D:/users.json")//3.对DF做操作(sql)//3.1 创建临时表df.createOrReplaceT原创 2021-12-07 16:39:46 · 1006 阅读 · 0 评论 -
Spark Sql概述
Spark sql概述1.1 什么是Spark sqlSpark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块。与基本的 Spark RDD API 不同, Spark SQL 的抽象数据类型为 Spark 提供了关于数据结构和正在执行的计算的更多信息。Spark SQL 它提供了2个编程抽象, 类似 Spark Core 中的 RDD1. DataFrame2. DataSet1.2 Spark SQL 的特点1. 2.1 Integrate原创 2021-12-07 16:30:32 · 1766 阅读 · 0 评论 -
Spark中累加器和广播遍历的使用
1 共享变量问题为什么a的输出结果为0而不是3或6?正常情况下, 传递给 Spark 算子(比如: map, reduce 等)的函数都是在远程的集群节点上执行, 函数中用到的所有变量都是独立的拷贝,这些变量被拷贝到集群上的每个节点上, 这些变量的更改不会传递回驱动程序,支持跨 task 之间共享变量通常是低效的, 但是 Spark 对共享变量也提供了两种支持。(1)累加器(2)广播变量若要让a来计数,则需要用到累加器。2 累加器的使用累加器用来对信息进行聚合,通常在向 Spark 传递函原创 2021-12-07 16:24:54 · 324 阅读 · 0 评论 -
Spark Job的划分
1 Spark job划分流程由于 Spark 的懒执行, 在驱动程序调用一个action之前, Spark 应用不会做任何事情,针对每个 action, Spark 调度器就创建一个执行图(execution graph)和启动一个 Spark job。每个 job 由多个stages 组成, 这些 stages 就是实现最终的 RDD 所需的数据转换的步骤. 一个宽依赖划分一个 stage,每个 stage 由多个 tasks 来组成, 这些 tasks 就表示每个并行计算, 并且会在多个执行器上执行原创 2021-12-07 16:20:05 · 1686 阅读 · 0 评论 -
Spark Core之RDD编程(内容超详细)
2.1 得到RDD(1)从数据源a:外部数据源 :文件、数据库、hive…b:从scala集合得到:带序列的集合都可以得到RDD2.2 RDD的转换在 RDD 上支持 2 种操作:transformation:从一个已知的 RDD 中创建出来一个新的 RDD 例如: map就是一个transformation.action:在数据集上计算结束之后, 给驱动程序返回一个值根据 RDD 中数据类型的不同, 整体分为 2 种 RDD:Value类型Key-Value类型(其实就是存一个二维原创 2021-12-06 15:54:18 · 852 阅读 · 1 评论 -
Spqrk Core之RDD概述
一、RDD概述1.1 RDD 概述1.1.1 什么是 RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。在代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。1.1.2 RDD 的 5 个主要属性(property)A list of partitions多个分区. 分区可以看成是数据集的基本组成单位.对于 RDD 来说, 每个分区都会被一个计算任务处理, 并决定了并行计算的粒度.用户原创 2021-12-06 15:37:32 · 316 阅读 · 0 评论 -
Spark运行模式详解
二、Spark运行模式2.1 local模式Local 模式就是指的只在一台计算机上来运行 Spark.通常用于测试的目的来使用 Local 模式, 实际的生产环境中不会使用 Local 模式.2.2 Spark 核心概念介绍2.2.1 MasterSpark 特有资源调度系统的 Leader。掌管着整个集群的资源信息,类似于 Yarn 框架中的 ResourceManager,主要功能:监听 Worker,看 Worker 是否正常工作;Master 对 Worker、Applicatio原创 2021-12-06 15:22:00 · 478 阅读 · 0 评论 -
Spark概述,带你快速了解Spark
一、spark概述1.1什么是sparkSpark 是一个快速(基于内存), 通用, 可扩展的集群计算引擎1.2 特点1.2.1 快速与 Hadoop 的 MapReduce 相比, Spark 基于内存的运算是 MapReduce 的 100 倍.基于硬盘的运算也要快 10 倍以上.Spark 实现了高效的 DAG 执行引擎, 可以通过基于内存来高效处理数据流。1.2.2 易用Spark 支持 Scala, Java, Python, R 和 SQL 脚本, 并提供了超过 80 种高性能的算原创 2021-12-06 15:17:42 · 994 阅读 · 0 评论