![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 91
王哪跑nn
好风凭借力,送我上青云
展开
-
Spark SQL - 简介
本文主要介绍了spark sql的基本概念和特点原创 2024-04-29 16:45:00 · 1929 阅读 · 0 评论 -
大数据 - Spark系列《十五》- spark架构
本文主要讲解了spark的架构以及spark job调度全流程原创 2024-03-31 15:51:00 · 1318 阅读 · 0 评论 -
大数据 - Spark系列《十四》- spark集群部署模式
本文详细讲解了spark集群的三种部署模式原创 2024-03-17 21:00:01 · 1057 阅读 · 0 评论 -
大数据 - Spark系列《十三》- spark调度流程(运行过程)
本文细致讲解了一下spark调度流程和job执行的关键步骤原创 2024-03-11 21:39:51 · 1286 阅读 · 0 评论 -
大数据 - Spark系列《十二》- 名词术语理解
本文主要讲解spark一下常用术语及常问面试题总结原创 2024-03-11 09:00:00 · 955 阅读 · 0 评论 -
大数据 - Spark系列《十一》- Spark累加器详解
累加器用来把Executor端变量信息聚合到Driver端。在 Driver程序中定义的变量,在Executor端的每个Task都会得到这个变量的一份新的副本,每个task更新这些副本的值后,传回 Driver端进行merge。观察一个问题: 原因是数据在executor端执行完毕以后并没有将acc结果数据返回//计算的结果为0sc.stop()解决方案:应该将每个executor执行的结果数据返回到Driver端进行聚合操作 , 返回最终结果数据。原创 2024-02-23 20:05:17 · 1289 阅读 · 2 评论 -
大数据 - Spark系列《十》- rdd缓存详解
在这篇关于RDD缓存的博客中,我们将深入探讨Apache Spark中RDD的缓存机制。我们将讨论RDD缓存的原理、使用方法以及在Spark作业中的实际应用。通过本文,读者将了解如何使用RDD缓存提高Spark作业的性能和效率,以及避免在重复计算中浪费资源的情况。原创 2024-02-23 13:48:49 · 1130 阅读 · 0 评论 -
大数据 - Spark系列《九》- 广播变量
广播变量是Spark中一种重要的分布式数据共享机制。本文首先介绍了广播变量的简介和特点,然后探讨了其使用场景,并详细讲解了创建、访问和销毁广播变量的方法。此外,还分析了不适用广播变量的问题。最后,文章深入解释了广播变量的分发和读取机制,包括创建原理和读取原理。通过本文的学习,读者将全面了解广播变量在Spark中的应用和实现机制。原创 2024-02-21 08:00:00 · 1301 阅读 · 0 评论 -
大数据 - Spark系列《八》- 闭包引用
本文将深入探讨闭包引用的原理和应用。首先,我们将介绍闭包引用的概念及其副本的形成机制。随后,通过两个实例代码演示闭包引用在 Spark 中的具体应用场景。接下来,我们将讨论使用 Source.fromFile 和 sc.textFile 两种方法读取数据的差异和适用场景。最后,我们会总结闭包引用的注意事项,包括序列化检查和“副本”数量的影响。原创 2024-02-20 11:36:31 · 1848 阅读 · 5 评论 -
大数据 - Spark系列《七》- 分区器详解
本文将深入探讨Apache Spark 中的分区器。首先,我们将介绍什么是分区器以及它在Spark中的作用。然后,我们将讨论RDD之间的依赖关系,包括窄依赖和宽依赖,以帮助读者更好地理解数据的分布和计算模型。接着,我们将探讨在何种情况下需要使用分区器,并介绍内置的两种常用分区器:HashPartitioner(哈希分区器)和RangePartitioner(范围分区器)。最后,我们将深入研究如何自定义分区器,以满足特定的业务需求原创 2024-02-19 13:30:12 · 1452 阅读 · 0 评论 -
大数据 - Spark系列《六》- RDD详解
本文将深入探讨RDD(弹性分布式数据集)属性和分区。我们将首先介绍RDD的属性,包括分区列表、分区计算逻辑、RDD之间的依赖关系等。接着,我们将详细讨论RDD分区的不同类型,包括原始RDD(从集合、文件、数据库等创建的)和由转换算子生成的RDD。此外,我们将提供一些实例,解释distinct、union、join等操作对分区的影响,并讨论repartition和coalesce方法的作用。最后,我们还将探讨groupBy操作可能不引发Shuffle的情况。原创 2024-02-19 11:23:48 · 1200 阅读 · 0 评论 -
大数据 - Spark系列《五》- Spark常用算子
本文主要介绍了spark常用的转换算子和行动算子,并提供了具体的代码实例进行练习原创 2024-02-08 14:01:54 · 1721 阅读 · 0 评论 -
大数据 - Spark系列《四》- Spark分布式运行原理
在本篇博客中,我们将深入探讨 Spark 分布式运行原理、面试题总结以及延伸知识点:关于Spark默认并行度spark.default.parallelism的理解原创 2024-02-04 17:40:31 · 1418 阅读 · 0 评论 -
大数据 - Spark系列《三》- 加载各种数据源创建RDD
本篇博客将介绍如何在 Spark 中加载不同类型的数据源,介绍加载本地文件、本地集合以及 MySQL 数据库的过程。原创 2024-02-04 15:48:16 · 1614 阅读 · 1 评论 -
大数据 - Spark系列《二》- 关于Spark在Idea中的一些常用配置
本文介绍了两种重要的配置方式:Live Templates 和文件模板。Live Templates 是一种快速生成常用代码片段的方法,而文件模板则允许您定义新文件的初始代码结构。通过本文,您将学会如何配置这两种模板,从而加速您的开发流程。原创 2024-01-31 19:59:50 · 872 阅读 · 0 评论 -
大数据 - Spark系列《一》- 从Hadoop到Spark:大数据计算引擎的演进
通过本文,您将了解到Hadoop与Spark的基础知识,并掌握Spark编程的基本流程和实践经验。原创 2024-01-31 15:23:08 · 2313 阅读 · 1 评论 -
大数据-Spark-关于Json数据格式的数据的处理与练习
本文主要联系了在Spark中怎么处理json数据原创 2024-01-30 20:30:21 · 603 阅读 · 0 评论 -
大数据 - Spark系列《一》- 分区 partition数目设置详解
本文主要介绍了spark中partition的数目设置原创 2024-01-29 21:12:36 · 1269 阅读 · 0 评论