大数据Spark：从入门到实战（理论和实战相结合，附上视频教程&项目源码）

最新推荐文章于 2024-07-31 13:16:03 发布

Bella人工智能爱好者

最新推荐文章于 2024-07-31 13:16:03 发布

阅读量770

点赞数

分类专栏：大数据文章标签：大数据架构师 spark Scala Hadoop MapReduce

本文链接：https://blog.csdn.net/bella_IT/article/details/98486416

版权

本文介绍了Spark作为大数据处理的重要框架，包括其起源、发展、与Hadoop MapReduce的区别，以及Spark的工具栈如Spark Core、SparkSQL、SparkStreaming、MLlib和GraphX。还详细讲解了Spark的安装步骤，特别是强调了Spark在Scala中的使用和其对函数式编程的支持，以及核心组件SparkContext和RDD的概念。

摘要由CSDN通过智能技术生成

本文是由菜鸟窝出品的12天大数据特训营课程摘录出来的，关于大数据spark的入门到实战视频可以戳此查看第三章：https://www.cniao5.com/course/10244

一、Spark简介

1、大数据简介：
Spark是大数据相关的最活跃的开源项目，是继 MapReduce框架之后的下一代大数据处理框架。
Spark是一个开源的内存计算框架，类似MapReduce，用于使用商业服务器集群来处理和分析数据。 Spark API允许开发者创建分布式应用程序，使用整个集群的资源，而不需要知道所有底层细节。

2、Spark发展历史
Spark是在Matei Zaharia的博士论文《An Architecture for Fast and General Data Processing on Large Cluster》(大型集群上的快速和通过数据处理架构)的基础上发展而来。

2009年，Spark起源于加州大学伯克利分校的实验室（AMPLab）。
2010年，Spark成为开源项目。 2013年，Spark被捐赠给Apache软件基金会。同年，Databricks公司成立。
2014年，Spark称为Apache的顶级项目

3、Spark版本历史