Spark系列
文章平均质量分 74
记录学习spark过程
IfNotExists
这个作者很懒,什么都没留下…
展开
-
Spark系列 - 5 - Saprk SQL
Spark SQL 是一种即支持SQL又支持命令式数据处理的工具,主要用于处理结构化和半结构化数据,整合SQL查询和Spark编程,通过相同的标准的连接方式连接不同的数据源,同时兼容Hive。其通过对数据的抽象实现对数据的分析处理。包括 DataFrame 和 DataSet 两种,下面详细介绍这两种抽象数据集。原创 2023-06-24 16:09:04 · 236 阅读 · 0 评论 -
Spark系列 - 3 - RDD 算子
本文主要通过实例讲解常用的RDD算子的用法。原创 2023-06-21 12:27:18 · 380 阅读 · 0 评论 -
Spark系列 - 2 - 三大数据结构
为能够进行高并发和高吞吐的数据处理,Spark封装了三大数据结构,用于不同的数据场景。包括 RDD、累加器、广播变量。下面详细介绍这三大数据结构。原创 2023-06-23 15:04:28 · 637 阅读 · 0 评论 -
Spark系列 - 1 - Spark 基础
本文主要记录学习的spark的基础知识,了解和熟悉spark的基本概念、原理以及架构流程。原创 2023-06-21 17:13:33 · 212 阅读 · 0 评论