Spark基本原理概念

一 Spark起源
Spark是一个基于scala语言开发的使用内存计算的大数据计算框架,诞生目的是为了解决传统计算框架如mapreduce基于磁盘计算导致计算速度慢所产生的弊端。目前Spark已经成长为一个优秀且强大的实时计算应用框架,可用于构建大型的、低延迟的数据分析应用程序。
2009 年,Spark诞生于加州大学伯克利分校 AMPLab
2013 年 6 月,成为 Apache 孵化项目
2014年 2 月,成为 Apache 顶级项目
2015年~, Spark在国内IT行业变得愈发火爆,大量的公司开始重点部署或者使用Spark来替代MapReduce、 Hive、 Storm等传统的大数据计算框架
二 Spark特点
基于内存执行(也可基于磁盘执行 如shuffle)
支持多语种开发(Scala、Java、Python、R)
优秀的任务调度机制DAG(Directed Acyclic Graph(有向无环图))
三 Spark主要组成部分
1.Spark Core:Spark的核心及基础组成 拥有内存计算、任务调度、部署模式、故障恢复、存储管理等功能
2.Spark SQL:允许开发人员直接处理RDD,同时也可查询Hive、HBase等外部数据源 开发人员可以用sql命令直接查询
3.Spark Streaming:可以实现高吞吐量的、具备容错机制的实时流数据的处理(流式计算)。可以监控来自Kafka,Flumn,HDFS。Kinesis,Twitter,ZeroMQ或者Scoket套接字的数据通过复杂的算法以及一系列的计算分析数据,并且可以将分析结果存入到HDFS文件系统,数据库以及前端页面中
4.MLlib(机器学习):mapreduce也可以用于机器学习 但是MLlib基于内存执行 速度快 且提供了常用机器学习算法的实现,包括聚类、分类、回归、协同过滤等
5.GraphX(图计算):是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求
四 Spark运行流程
https://blog.csdn.net/qq_17677907/article/details/88685705

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值