Spark学习(1)——初识spark

Spark是什么?

  Spark是一种通用的大数据计算框架,就像传统的大数据技术Hadoop的MapReduce,Hive以及Storm流式实时计算引擎等。

  Spark包含了大数据领域常见的各种计算框架;比如Spark Core勇于离线计算,Spark SQL用于交互式查询,Spark Streaming用于实时流式计算,Spark MLlib 用于机器学习,Spark GraphX用于图计算。

Spark主要用于大数据的计算,Hadoop主要用于后续大数据的存储,(比如Hdfs,Hive,Hbase)以及资源调度Yarn。

Spark与Hadoop关系如下图

Spark介绍

Spark是一种大数据计算框架,期望使用一种技术栈就完美解决大数据领域的各种计算任务,Apache对Spark的定义就是通用的大数据快速处理引擎。

Spark使用Spark RDD,Spark SQL、Spark Streaming、MLlib、GraphX成功解决了大数据领域中,离线批处理,交互式查询、实时流计算、机器学习和图计算等重要的任务和问题。

Spark的一个主要特定就是基于内存计算的,从而让它的速度可以达到MapReduce、Hive的数倍甚至数十倍。

Spark与Mapreduce计算过程如下:

 

mapreduce 首先要将数据写入磁盘,然后通过网络从磁盘读取大量的数据,通过网络传输,每一个reduce节点需要从map节点拉取属于它的数据,这个过程就是MapReduce的shuffle,这个就决定了MapReduce只适合处理对数据不敏感的离线批处理的任务。

Spark 基于内存,每个节点是任务节点,代表一个任务,同时代表了一份数据,整个计算过程可能在一个物理节点的内存中进行的,这就是spark的计算模型与MapReduce完全不同的,spark是主要是基于内存的计算框架,(有时也会用磁盘,spark shuffle),但是很多操作,比如说单纯的map操作,没有reduce操作,或者filter类的操作,都是可以直接基于内存计算的。

MapReduce的计算模型非常固定,必须基于磁盘,以及大量的网络传输,所以spark的速度可以比MapReduce;Hive,速度快出数倍,甚至数十倍,上百倍。

Spark的整体架构

 

 

Spark目前的应用案例

目前已经有很多公司正在使用Spark作为大数据的计算框架,包括,eBay,BAT,网易、京东、华为、大众点评、优酷、土豆、搜狗等。

Spark同时也获得了多个世界顶级的IT厂商的支持,包括IBM,Intel等。

Spark SQL 与 Hive比较

Spark SQL不能完全替代Hive,Hive是一种基于HDFS的数据仓库,并且提供了基于SQL模型的,针对存了大数据的数据仓库,进行分布式交互查询的查询引擎。

严格的来说,Spark SQL能够替代的是Hive的查询引擎,而不是Hive本身,实际上即使在生产环境下,Spark SQL也是针对Hive数据仓库中的数据进行查询,Spark自己本身不提供存储,自然也不可能替代Hive作为数据仓库的这个功能。

Spark SQL 的一个优点,相较于Hive查询引擎来说,就是速度快,同样的SQL语句,使用Hive的查询引擎,由于其底层是基于MapReduce,必须经过shuffle过程走磁盘,一次速度是非常缓慢的,很多复杂的sql语句,在Hive中执行都需要1个小时以上的时间,而Spark SQL 由于其底层基于Spark自身的基于内存的特点,因此速度达到了Hive查询引擎的数倍以上。

但是Spark SQL还不够完善,有一些Hive支持的高级特性,Spark SQL不支持,导致Spark SQL还不能完全替代Hive的查询引擎,而只能在部分Spark SQL 功能特性满足需求的场景下,进行使用。

Spark SQL另一个优点就是支持大量不同的数据源,包括Hive,json,jdbc等,Spark SQL支持可以直接针对hdfs文件执行sql语句。

Spark Streaming 与 Storm比较

Spark Streaming 与Storm都可以用于实时流计算,但是两者区别是非常大的,区别1,Spark Streaming和Storm的计算类型不一样,Spark Streaming是基于RDD的,因此需要将一小段时间内的,比如1s内的数据,收集起来,作为一个RDD,然后针对这个batch的数据进行处理,而Storm却可以做到每来一条数据,就可以立即进行处理和计算,因此,Spark Streaming实际上严格意义上来说,只能称作准实时的流计算框架,而Storm是真正意义上的实时的计算框架。

此外,Storm支持的一项高级特性,是Spark Streaming暂时不具备的,即Storm支持在分布式流式计算程序在运行过程中,可以动态的调整并行度,从而动态提高并发处理能力,而Spark Streaming是无法动态调整并行度的,

但是Spark Streaming也有其优点,首先Spark Streaming 由于是基于batch处理的,因此相较于Storm基于单条数据进行处理,具有数倍甚至数十倍的吞吐量。

此外Spark Streaming 也身处Spark生态圈,因此Spark Streaming可以与Spark其他组件进行无缝整合,流式处理完的数据,可以立即进行 map  reduce操作,可以进行sql进行查询,甚至可以立即使用machine learning或者图计算算法进行处理,这种一站式的大数据处理功能和优势,是Storm无法匹敌的。

因此,通常对实时性要求特别高,可以选择使用Storm,但是如果对实时性要求一般,允许1s内的准实时处理,而且不要求动态调整并行度的化,选择Spark Streaming是更好的选择。

 

 

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Spark是一种大数据处理的框架,它可以处理大量的数据并进行分析。初学者可以通过学习Spark的基本概念和使用方法,了解Spark的工作原理和应用场景。在学习Spark的过程中,需要掌握Spark的核心组件和API,例如Spark Core、Spark SQL、Spark Streaming等。此外,还需要学习Spark的部署和调优,以及与其他大数据技术的集成。 ### 回答2: Spark是一种基于内存的分布式计算框架,是大数据处理中最流行的技术之一。Spark简单易用,能够快速地处理海量数据,尤其是在机器学习和数据挖掘领域中表现突出。本文将从初识Spark的角度入手,介绍Spark的基本概念和使用。 一、Spark的基本概念 1. RDD RDD全称为Resilient Distributed Datasets,中文意思是弹性分布式数据集,它是Spark的核心数据结构。RDD是一个不可变的分布式的对象集合,可以跨越多个节点进行并行处理。一个RDD可以分为多个分区,每个分区可以在不同的节点上存储。 2. DAG DAG即Directed Acyclic Graph(有向无环图),它是Spark中的一个概念,用来表示作业的依赖关系。Spark将一个作业拆分成一系列具有依赖关系的任务,每个任务之间的依赖形成了DAG。 3. 窄依赖和宽依赖 对于一个RDD,如果一个子RDD的每个分区只依赖于父RDD的一个分区,这种依赖就称为窄依赖。如果一个子RDD的每个分区依赖于父RDD的多个分区,这种依赖就称为宽依赖。宽依赖会影响Spark的性能,应尽量避免。 二、Spark的使用 1. 安装Spark 要使用Spark,首先需要在本地或者集群上安装Spark。下载安装包解压缩即可,然后设置环境变量,即可在命令行中运行Spark。 2. Spark Shell Spark Shell是Spark的交互式命令行界面,类似于Python的交互式控制台,可以快速测试Spark代码。在命令行中输入spark-shell即可进入。 3. Spark应用程序 除了Spark Shell,Spark还支持以应用程序的形式运行。要创建一个Spark应用程序,可以使用Scala、Java、Python等语言进行编写。使用Spark API,读取数据、处理数据、保存数据等操作都可以通过编写代码完成。 总之,Spark是一种优秀的分布式计算框架,能够在海量数据处理中发挥出强大的作用。初学者可以从掌握RDD、DAG、依赖关系等基本概念开始,逐步深入学习Spark的使用。 ### 回答3: Spark是一种快速、分布式数据处理框架,它能够在成千上万个计算节点之间分配数据和计算任务。Spark的优势在于它支持多种语言和数据源,可以在内存中快速存储和处理数据。 在初学Spark时,我们需要对Spark的架构和核心组件有一些了解。首先,Spark的核心组件是Spark Core,它是一个可以用于建立各种应用程序的计算引擎。与此同时,Spark持有丰富的库,包括Spark SQL、Spark Streaming、MLLib和GraphX等,以支持在各种数据类型(文本、图像、视频、地理定位数据等)上运行各种算法。 若想要在Spark中进行任务,有两种编程API可供选择:Spark的核心API和Spark的SQL及DataFrame API。Spark的核心API基于RDDs(弹性分布式数据集),它是不可变的分布式对象集合,Spark使用RDD来处理、缓存和共享数据。此外,Spark的SQL及DataFrame API提供了更高层次的语言,可以处理结构化和半结构化数据。 除了组件和API之外,我们还需要了解Spark的4个运行模式:本地模式、Standalone模式、YARN模式和Mesos模式。本地模式由单个JVM上单个线程(本地模式)或四个线程(local[*]模式)运行。Standalone通常用于小规模集群或开发和测试环境。在YARN或Mesos模式下,Spark将任务提交给集群管理器,并通过管理器分配和管理资源。 总体来说,初学Spark时,我们需要了解Spark的核心组件、编程API和运行模式。熟悉这些概念以及Spark的架构,可以帮助我们更好地理解Spark和构建高效且可扩展的Spark应用程序。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值