大数据Spark:从入门到实战(附视频教程&项目源码)

本文介绍了Spark的起源、发展历程和主要特点,对比了MapReduce的不足,强调了Spark在编程性、计算速度和通用计算引擎方面的优势。文章还涵盖了Spark的工具栈,包括Spark Core、SparkSQL、SparkStreaming和MLlib等。最后,讨论了Spark的安装过程,特别是Spark在Hadoop集群中的运行方式以及SparkContext的重要角色。
摘要由CSDN通过智能技术生成

本文是由菜鸟窝出品的12天大数据特训营课程摘录出来的,关于大数据spark的入门到实战视频可以戳此查看第三章:https://www.cniao5.com/course/10244

勾搭助教Bella的weixin(BT474849)还可以免费领取大数据独家内部视频资源,项目源码等。

一、Spark简介
1、大数据spark简介:
Spark是大数据相关的最活跃的开源项目,是继 MapReduce框架之后的下一代大数据处理框架。
Spark是一个开源的内存计算框架,类似MapReduce, 用于使用商业服务器集群来处理和分析数据。 Spark API允许开发者创建分布式应用程序,使用整个集 群的资源,而不需要知道所有底层细节。

2、Spark发展历史
Spark是在Matei Zaharia的博士论文《An Architecture for Fast and General Data Processing on Large Cluster》(大型集群上 的快速和通过数据处理架构)的基础上发展而来。

2009年,Spark起源于加州大学伯克利分校的 实验室(AMPLab)。
2010年,Spark成为开源项目。 2013年,Spark被捐赠给Apache软件基金会。 同年,Databricks公司成立。
2014年,Spark称为Apache的顶级项目

3、Spark版本历史

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值