Spark基础简介

原创 2018年04月17日 18:09:00

在准备找工作之际,在下准备将之前项目中部分知识再复习加固一遍。。。


Spark是什么

 • Spark是一个用来实现快速通用集群计算平台。
  (集群计算:把一台电脑无法解决的问题,放到多台电脑组成的集群上解决)
 • Spark的一个主要特点就是能够在内存中进行运算,因此,Spark在计算速度上有很大的优势。处理大规模数据集是,速度是非常重要的,Spark在迭代处理计算上,比hadoop快100倍。即使时必须在磁盘上进行的复杂计算,Spark依然比MapReduce更加高效。
 • 总的来说,Spark适用于各种原先需要多种不同的分布式平台的场景,包括批处理、迭代算法、交互式查询、流处理。
Spark为什么比mapreduce快?

1)基于内存计算,减少低效的磁盘交互;
2)高效的调度算法,基于DAG;
3)容错机制Linage。
(精华部分就是DAG和Lingae)

一个一统的软件栈

 • Spark 项目包含多个紧密集成的组件。
 • Spark 的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。
 • 由于Spark 的核心引擎有着速度快和通用的特点,因此Spark 还支持为各种不同应用场景专门设计的高级组件,比如SQL 和机器学习等。这些组件关系密切并且可以相互调用,这样你就可以像在平常软件项目中使用程序库那样,组合使用这些的组件。
  Spark 软件栈

Spark适用场景

Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小

由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。

总的来说Spark的适用面比较广泛且比较通用。

Spark入门基础--简介及环境搭建

-
 • 1970年01月01日 08:00

Spark(一): 基本架构及原理

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和St...
 • swing2008
 • swing2008
 • 2017-03-08 11:26:45
 • 32696

spark使用文档

最近在看了一些spark的使用文档,以及官网简介,自己总结了一点使用文档,记录一下 快速启动spark 关于这一部分 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。S...
 • qq_30408111
 • qq_30408111
 • 2018-01-26 14:19:52
 • 1198

Spark编程模型经典解析(一)

从Hadoop  MR到Spark回顾hadoop -MR计算过程1. 文件 通过 split,split的原因:MapReduce是并行计算的,如果一个文件很大,500G的大小,做不了分片,那如何并...
 • WYpersist
 • WYpersist
 • 2018-03-23 19:16:03
 • 444

PKCS8密钥格式

以下使用RSA 512 1.生成密钥对 openssl genrsa -out rsa_pem.key 512 2.DER 格式 openssl rsa -in rsa_pem.key -info...
 • zhoujianhei
 • zhoujianhei
 • 2014-12-01 17:44:59
 • 20899

Spark入门基础教程

Spark入门基础教程
 • lbyyy
 • lbyyy
 • 2016-11-25 14:37:03
 • 9968

Spark是什么?

Spark是个通用的集群计算框架,通过将大量数据集计算任务分配到多台计算机上,提供高效内存计算。如果你熟悉Hadoop, 那么你知道分布式计算框架要解决两个问题:如何分发数据和如何分发计算。Hadoo...
 • caiandyong
 • caiandyong
 • 2015-10-15 15:36:28
 • 3864

spark的介绍和pyspark的使用

从这个名字pyspark就可以看出来,它是由python和spark组合使用的.相信你此时已经电脑上已经装载了hadoop,spark,python3.那么我们现在开始对pyspark进行了解一番(当...
 • dxyna
 • dxyna
 • 2018-03-31 23:42:34
 • 153

spark-knn的简易实现

spark-knn,spark是一个很优秀的分布式计算框架,本文实现的knn是基于欧几里得距离公式实现的,下面开始起简单的实现,可能有多问题希望大家能够给指出来。 Logger.getLogge...
 • qq_14950717
 • qq_14950717
 • 2017-02-06 15:04:52
 • 506

Spark基础全解析

SPARK全解析 标签(空格分隔): Spark SPARK全解析 Spark是什么? Spark 源码编译 Spark本地模式安装配置及Spark Shell基本使用 Spark集群 S...
 • vinfly_li
 • vinfly_li
 • 2018-02-28 10:05:32
 • 281
收藏助手
不良信息举报
您举报文章:Spark基础简介
举报原因:
原因补充:

(最多只允许输入30个字)