Spark(概述 & 版本)

最新推荐文章于 2023-06-17 22:10:44 发布

hxxjxw

最新推荐文章于 2023-06-17 22:10:44 发布

阅读量672

点赞数

分类专栏： Spark 大数据文章标签： Spark 大数据

本文链接：https://blog.csdn.net/hxxjxw/article/details/96509946

版权

大数据同时被 2 个专栏收录

18 篇文章 2 订阅

订阅专栏

Spark

0 篇文章 0 订阅

订阅专栏

Spark概述

当前的大数据技术主要可分为两大快

一类是Hadoop，用来做弹性存储

一类是Spark，用来做计算引擎

Spark组件

Spark SQL
Spark Streaming
MLLib
GraphX

Spark由scala语言编写, 用Java、Scala、Python、R语言都可以去开发

Spark安装不需要Hadoop环境，需要JDK（Hadoop是基于Java生态的，Spark是基于Scala的）

版本

spark1.6版本是一个很稳定的版本，好的公司，如果很早之前就上了spark的技术，一般都是用的1.6
而如果新公司一般都会选择新的版本2.x版本

不同版本之间会有一个API的变化

scala2.10兼容的spark是1.6
scala2.11兼容的spark是2.x

Spark运行架构

数据从磁盘里读出来以后，被封装成一个RDD，可以对RDD里面的数据进行分区。一个RDD可以包含多个分区，这个RDD里面相关的分析数据可以放在不同的分析节点上面并行计算。

Spark不同的RDD之间，会通过各种转换动作等操作，形成一个相互的依赖关系,这个依赖关系就构成了一个有向无环图DAG

RDD

网页爬虫是不能用Spark程序做的，因为RDD原理不支持这种细粒度数据修改，（网页爬虫要不断地增量更新相关数据，要对很细节的数据项进行修改）只支持粗粒度的操作，像map、filter

RDD特性

如果某个RDD坏掉，只要从它上面的父亲RDD重新计算一下，转换一下，就可以得到它丢失的分区，非常简单

RDD的依赖关系和运行过程

宽依赖一般都是存在Shuffle的情况

Stage会划分出两种类型的Satge

hxxjxw

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark(概述 & 版本)

Spark概述Spark就是用scala语言开发的scala集成了面向对象和函数式编程两种风格Spark与Hadoop的对比Spark生态系统Spark不是一个单一的产品，而是一个完善的生态系统这是如果不同Spark的话:用Spark:Spark运行架构数据从磁盘里读出来以后，被封装成一个RDD，可以对RDD...
复制链接

扫一扫