Spark框架的整体介绍

前言: 工欲利其器,必先固其理. 勤学苦练 天道酬勤
在这里插入图片描述

思考:

  • 究竟什么是数据和大数据再探讨
  • 大数据框架如何完成项目搭建
  • 为什么有Hadoop?Hadoop1.x和2.x以及现在3.X变化?
  • 为什么有产生了Spark?

Spark介绍:

  • Spark是一个开源的类似于Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点但不同于MapReduce的是Spark中的Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘机器学习等需要迭代的map reduce的算法。
  • Spark是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的不足。

Spark由来:

  • Spark 是加州大学伯克利分校AMP实验室(Algorithms Machines and People Lab)开发的通用大数据出来框架。Spark生态栈也称为BDAS,是伯克利AMP实验室所开发的,力图在算法(Algorithms)、机器(Machines)和人(Person)三种之间通过大规模集成来展现大数据应用的一个开源平台。AMP实验室运用大数据、云计算等各种资源以及各种灵活的技术方案,对海量数据进行分析并转化为有用的信息,让人们更好地了解世界。
  • 发展:
    在这里插入图片描述
  • Spark 是一种快速、通用、可扩展的大数据分析引擎,2009 年诞生于加州大学伯克利分校 AMPLab,2010 年开源, 2013年6月成为Apache孵化项目,2014年2月成为 Apache 顶级项目,用 Scala进行编写项目框架。

Spark的4大特点:

  • 速度快: 支持内存计算,并且通过DAG(有向无环图)执行引擎支持无环数据流, 所以官方宣称其在内存中的运算速度要比Hadoop的MapReduce快100倍,在硬盘中要快10倍。
    在这里插入图片描述

  • 2-有多种语言对应API: 支持了包括 Java、Scala、Python 、R和SQL语言在内的多种语言。
    在这里插入图片描述

  • 3-多种框架支持
    在这里插入图片描述

  • 4-运行机制: Spark 支持从HDFS、HBase、Cassandra 及 Kafka 等多种途径获取数据。
    在这里插入图片描述
    Spark的模块介绍:
    简介: 整个Spark 框架模块包含:Spark Coke、 Spark SQL、 Spark Streaming、 Spark GraphX、 Spark MLlib,而后四项的能力都是建立在核心引擎之上

  • Spark Core:
    在这里插入图片描述

  • Spark SQL: Spark 用来操作结构化数据的程序包。通过 Spark SQL,我们可以使用 SQL操作数据。数据结构:Dataset/DataFrame = RDD + Schema
    在这里插入图片描述

  • Spark Streaming
    在这里插入图片描述

  • Spark MLlib: 提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等,还提供了模型评估、数据导入等额外的支持功能。 数据结构:RDD或者DataFrame
    在这里插入图片描述

  • Spark GraphX: Spark中用于图计算的API,性能良好,拥有丰富的功能和运算符,能在海量数据上自如地运行复杂的图算法数据结构:RDD或者DataFrame

在这里插入图片描述
在Full Stack 理想的指引下,Spark 中的Spark SQL 、SparkStreaming 、MLLib 、GraphX 几大子框架和库之间可以无缝地共享数据和操作,这不仅打造了Spark 在当今大数据计算领域其他计算框架都无可匹敌的优势,而且使得Spark 正在加速成为大数据处理中心首选通用计算平台。

  • Structured Streaming: 数据结构:DataFrame和DataSet
    在这里插入图片描述
    Structured Streaming是建立在SparkSQL引擎之上的可伸缩和高容错的流式处理引擎,可以像操作静态数据的批量计算一样来执行流式计算。当流式数据不断的到达的过程中Spark SQL的引擎会连续不断的执行计算并更新最终结果。简而言之,Structured Streaming提供了快速、可伸缩、可容错、端到端精确的流处理
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值