Spark基本原理概念

最新推荐文章于 2023-06-13 17:10:14 发布

耀霸霸

最新推荐文章于 2023-06-13 17:10:14 发布

阅读量301

点赞数 2

分类专栏：大数据文章标签： spark 大数据

大数据专栏收录该内容

7 篇文章 0 订阅

订阅专栏

一 Spark起源
Spark是一个基于scala语言开发的使用内存计算的大数据计算框架，诞生目的是为了解决传统计算框架如mapreduce基于磁盘计算导致计算速度慢所产生的弊端。目前Spark已经成长为一个优秀且强大的实时计算应用框架，可用于构建大型的、低延迟的数据分析应用程序。
2009 年，Spark诞生于加州大学伯克利分校 AMPLab
2013 年 6 月，成为 Apache 孵化项目
2014年 2 月，成为 Apache 顶级项目
2015年~， Spark在国内IT行业变得愈发火爆，大量的公司开始重点部署或者使用Spark来替代MapReduce、 Hive、 Storm等传统的大数据计算框架
二 Spark特点
基于内存执行（也可基于磁盘执行如shuffle）
支持多语种开发（Scala、Java、Python、R）
优秀的任务调度机制DAG(Directed Acyclic Graph（有向无环图))
三 Spark主要组成部分
1.Spark Core:Spark的核心及基础组成拥有内存计算、任务调度、部署模式、故障恢复、存储管理等功能
2.Spark SQL：允许开发人员直接处理RDD，同时也可查询Hive、HBase等外部数据源开发人员可以用sql命令直接查询
3.Spark Streaming：可以实现高吞吐量的、具备容错机制的实时流数据的处理(流式计算)。可以监控来自Kafka,Flumn,HDFS。Kinesis,Twitter，ZeroMQ或者Scoket套接字的数据通过复杂的算法以及一系列的计算分析数据，并且可以将分析结果存入到HDFS文件系统，数据库以及前端页面中
4.MLlib（机器学习）：mapreduce也可以用于机器学习但是MLlib基于内存执行速度快且提供了常用机器学习算法的实现，包括聚类、分类、回归、协同过滤等
5.GraphX（图计算）：是一个分布式图处理框架，它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口，极大的方便了对分布式图处理的需求
四 Spark运行流程
https://blog.csdn.net/qq_17677907/article/details/88685705