![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 91
冉半夏生
这个作者很懒,什么都没留下…
展开
-
Spark SQL概述
一、简介1、什么是Spark SQL简单来说,Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块。设计初称为shark,是为了改变hive底层计算引擎,使hive处理数据更快,但过于依赖hive。spark是线程级并行而hive原始计算引擎是进程级并行,所以spark与hive的兼容存在线程安全问题。Spark SQL汲取了shark的一些优点,重新开发了SparkSQL代码,摆脱了对Hive的依赖性,使得只是兼容 Hive,而Hive on原创 2021-07-20 16:41:25 · 308 阅读 · 0 评论 -
Spark RDD序列化与血缘关系
RDD序列化从计算的角度, 算子以外的代码都是在 Driver 端执行, 算子里面的代码都是在 Executor端执行。所以需要涉及到网络传输,且如果计算中涉及到算子以外的数据那么就要求这个数据进行序列化,因为没有序列化就代表无法进行网络传输也就无法将值传到其它Excutor端执行,就会发生错误。(1)闭包检查在scala的函数式编程中,函数内经常会用到函数外变量,这样就会形成闭包效果,因此,在分布式系统中,就会存在对象需要在Driver和Executor间传递,那么就需要传递的对象被序列化,因此在计原创 2021-06-15 11:41:49 · 1221 阅读 · 1 评论 -
SparkRDD——行动算子
一、行动算子定义spark的算子可以分为trans action算子 以及 action算子 ,即变换/转换 算子。如果执行一个RDD算子并不触发作业的提交,仅仅只是记录作业中间处理过程,那么这就是trans action算子 ,相反如果执行这个 RDD 时会触发 Spark Context 提交 Job 作业,那么它就是 action算子及行动算子。总结来说就是在Spark中,转换算子并不会马上进行运算的,即所谓的“惰性运算”,而是在遇到行动算子时才会执行相应的语句的,触发Spark的任务调度并开始进原创 2021-06-10 17:43:46 · 3426 阅读 · 0 评论 -
SparkRDD——转换算子
转换算子一、单value型转换算子(只使用1个RDD):1、map 将数据进行转换,数据量不会增加和减少2、mapPartitions 以分区为单位将一个分区内的数据进行批处理操作,且可以执行过滤操作3、mapPartitionsWithIndex 功能类似mapPartiutions算子,只是加入了每个分区的索引,可以选择性的对某些分区进行操作4、flatMap 扁平化操作,即将集合嵌套类型的数原创 2021-05-19 16:48:31 · 2889 阅读 · 5 评论 -
SparkRDD之——RDD概述
1、什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 ①弹性:⚫存储的弹性:内存与磁盘的自动切换,Spark优先把数据放到内存中,如果内存放不下,就会放到磁盘里面,程序进行自动的存储切换。⚫容错的弹性:数据丢失可以自动恢复,在RDD进行转换和动作的时候,会形成RDD的Lineage依赖链即血统,当某一个RDD失效的时候原创 2021-05-18 19:19:42 · 1375 阅读 · 2 评论 -
Spark集群运行环境搭建
Spark集群运行环境搭建文章目录Spark集群运行环境搭建一、standalone模式1.1 解压与配置文件修改1.1.1 解压1.1.2 修改配置文件1.1.3 文件分发1.2 集群启动与应用提交1.2.1 启动集群1.2.2 查看 Master 资源监控 Web UI 界面1.2.3 提交应用1.3 配置历史服务1.3.1 配置文件修改1.3.2 重新启动并重新执行测试任务1.3.3 查看历史服务1.4 配置高可用二、使用步骤1.引入库2.读入数据总结集群模式1、standalone ->原创 2021-03-17 20:16:26 · 217 阅读 · 0 评论 -
Spark本地模式运行环境搭建
Spark运行环境搭建文章目录Spark运行环境搭建前言一、本地模式1.1基于IDEA和Maven的Spark开发环境搭建1.1.1 IDEA中增加Scala插件1.1.2 配置全局的Scala SDK1.1.3 添加Spark依赖关系1.1.4 wordCount测试案例1.1.5 将程序打成jar包1.2 Spark Local 环境搭建和测试二、使用步骤1.引入库2.读入数据总结前言Spark程序有四种运行环境,分别如下:本地模式1、local -> 主要用于开发(IDEA中运行)原创 2021-03-12 19:46:02 · 2384 阅读 · 0 评论