大数据学习(09)--spark学习

目录

1.spark介绍

1.1 spark介绍

在这里插入图片描述
在这里插入图片描述

spark不仅仅是一个计算框架,而是一个大数据处理的平台,或者说生态。

1.2 scale介绍

在这里插入图片描述

1.3 spark和Hadoop比较

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

spark将运行的中间结果写入内存,而不是如MapReduce那样每次都写入磁盘,所以速度非常快,那么肯定就有疑问,内存相比于磁盘来说,那么小,如何解决大数据的中间结果的存储,spark是采用优先写内存,内存写满后,才往磁盘中写入。

2.spark生态系统

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.spark运行框架

3.1 基本概念

在这里插入图片描述

3.2 架构的设计

在这里插入图片描述
在这里插入图片描述

3.3 spark运行基本流程

在这里插入图片描述

3.4 spark运行原理

在这里插入图片描述

3.5 RDD运行原理

3.5.1 设计背景

在这里插入图片描述

3.5.2 RDD概念和特性

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.5.3 RDD之间的依赖关系

在这里插入图片描述

3.5.4 stage的划分

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.5.5 RDD的运行过程

在这里插入图片描述

4.spark SQL

4.1 shark的介绍

在这里插入图片描述

4.2 spark SQL的介绍

在这里插入图片描述
在这里插入图片描述

5.spark的部署和运行

5.1 三种部署方式

在这里插入图片描述

5.2 从Hadoop+Strom 架构转向spark架构

在这里插入图片描述
在这里插入图片描述

5.3 Hadoop 和spark的统一部署

在这里插入图片描述

6.spark编程实践

参考博客

6.1 spark安装

在这里插入图片描述
在这里插入图片描述

6.2 启动spark shell

在这里插入图片描述

6.3 spark RDD的操作

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6.4 spark应用程序

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值