Spark入门

最新推荐文章于 2024-07-21 21:43:54 发布

8000006808

最新推荐文章于 2024-07-21 21:43:54 发布

阅读量59

点赞数

分类专栏：大数据文章标签： spark big data hive

本文链接：https://blog.csdn.net/qq_39460338/article/details/119892707

版权

大数据专栏收录该内容

15 篇文章 0 订阅

订阅专栏

Spark

参见：
https://blog.csdn.net/c391183914/article/details/78672555#21-%E9%9B%86%E7%BE%A4%E8%A7%92%E8%89%B2

spark是什么？

Spark是一种快速、通用、可扩展的大数据分析引擎
在这里插入图片描述
Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spark Streaming、GraphX、MLib、SparkR等子项目，Spark是基于内存计算的大数据并行计算框架。

Spark内置项目：
在这里插入图片描述
Spark Core：实现了 Spark 的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core 中还包含了对弹性分布式数据集(resilient distributed dataset，简称RDD)的 API 定义。
Spark SQL：是 Spark 用来操作结构化数据的程序包。通过 Spark SQL，我们可以使用 SQL 或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据。Spark SQL 支持多种数据源，比如 Hive 表、Parquet 以及 JSON 等。
Spark Streaming：是 Spark 提供的对实时数据进行流式计算的组件。提供了用来操作数据流的 API，并且与 Spark Core 中的 RDD API 高度对应。
Spark MLlib：提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。
集群管理器： Spark 设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。为了实现这样的要求，同时获得最大灵活性，Spark 支持在各种集群管理器(cluster manager)上运行，包括 Hadoop YARN、Apache Mesos，以及 Spark 自带的一个简易调度器，叫作独立调度器

Spark SQL调优

大表join小表
加个小表广播

8000006808

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark入门

Spark参见：https://blog.csdn.net/c391183914/article/details/78672555#21-%E9%9B%86%E7%BE%A4%E8%A7%92%E8%89%B2spark是什么？Spark是一种快速、通用、可扩展的大数据分析引擎Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spark Streaming、GraphX、MLib、SparkR等子项目，Spark是基于内存计算的大数据并行计算框架。Spark内置
复制链接

扫一扫

专栏目录