大数据技术spark基础

一、spark概述

1.1什么是spark?

1.2 spark的特点

1.3 spark生态圈组件

1.4 spark的核心原理

二、Spark和MapReduce的区别

三、3.MapReduce核心环节-Shuffle过程

四、了解spark架构


一、spark概述

1.1****什么是spark?

Spark 是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台之一。

1.2 spark****的特点

1**.快速**

与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上。

2. 易用

Spark支持Java、Python和Scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用。

3. 通用

Spark提供了统一的解决方案。Spark可以用于,交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX)。这些不同类型的处理都可以在同一个应用中无缝使用。

4. 随处运行

用户可以使用Spark的独立集群模式运行Spark,也可以在亚马逊弹性计算云(Amazon Elastic Compute Cloud, Amazon EC2)、Hadoop YARN资源管理器或 Apache Mesos上运行Spark。

**5.**代码简洁

Spark支持使用Scala、Python等语言编写代码。Scala 和Python 的代码相对Java的代码而言比较简洁,因此,在Spark中一般都使用Scala 或Python 编写应用程序,这也比在MapReduce 中编写应用程序简单方便。

1.3 spark****生态圈组件

(1)Spark Core:Spark的核心,提供底层框架及核心支持。

(2)BlinkDB:一不用于在海量数据上进行交互式SQL查询的大规模并行查询引擎允许用户通过权衡数据精度缩短查询响应时间,数据的精度将被控制在允许的误差范围内。

(3)Spark SOL:可以执行SQL查询,支持基本的SOL语法和HiveQL语法,可读取的数据源包括Hive、HDFS、关系数据库(如MySQL)等。

(4)SparkStreaming:可以进行实时数据流式计算。

(5)MLBase:MLBase 是Spark生态圈的一部分,专注于机器学习领域,学习门槛较低。

(6)GraphX:图计算的应用在很多情况下处理的数据量都是很庞大的。

(7)SparkR:SparkR是 AMPLab发布的一个R语言开发包,使得R语言编写的程序不只可以在单机运行,也可以作为Spark的作业运行在集群上,极大地提升了R语言的数据处理能力。

1.4 spark****的核心原理

为了更加深入了解spark的核心原理,需要先了解两个重要的概念,即窄依赖(Narrow Dependency)和宽依赖(Wide Dependency)

窄依赖指的是子RDD的一个分区只依赖于某个父RDD中的一个分区

宽依赖指的是子RDD的每一个分区都依赖于某个父RDD中一个以上的分区

二、Spark和MapReduce的区别

  1. spark处理数据是基于内存的,而MapReduce是基于磁盘处理数据的。

  2. Spark 的内存计算特性 和 基于DAG有向无环图 的执行模型,通常比 MapReduce 更快。

3.Spark提供了丰富的API,包括 scala、Java、Python等。开发起来更加灵活、表达能力更强。而 MapReduce 使用 Java 编程语言来编写 Map 和 Reduce 函数,需要手动编写更多的代码来实现处理逻辑。

  1. Spark 有更好的扩展性,可以方便的与其他数据处理框架和工具集成。

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数大数据工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
img

纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新**

如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
[外链图片转存中…(img-orXR1SZK-1712890453611)]

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值