spark
心灵彼岸-诗和远方
对一个程序员来说数据结构与算法是内功,各种技术就是招式,只有并驾齐驱方可到达巅峰!
展开
-
spark产生的原因
一、spark产生的目的spark产生:为了替代Mapreduce,解决Mapreduce计算短板Hadoop生态体系:hdfs+zokeeper +mareduce/hive+hbase+storm+mahot+其他 工具;spark体系:hdfs+zokeeper +spark+hbase+storm+mahot+其他 工具。二、spark的设计初衷:设计一个统一的计算引擎解决...原创 2019-05-02 18:39:20 · 1510 阅读 · 0 评论 -
SPARK-RDD 详解
RDD:一、什么是RDD:分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可并行计算的集合。RDD具有数据流模型特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存到内存,后续查询能够重用工作集,这极大的提升查询速度。1.1.数据集:RDD是数据集合的抽象,是复杂物理介质上存在数据的一种逻辑视图。1.2.分布式:RDD的...原创 2019-05-02 22:09:17 · 571 阅读 · 0 评论 -
Spark内存管理
本文阐述的原理基于 Spark 2.1 版本,主要梳理出 Spark 内存管理的脉络。Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解con Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。在执行 Spark 的应用程序时,Spark 集群会启动 Driver 和 Executor 两种 JVM 进程,...转载 2019-09-10 23:22:09 · 100 阅读 · 0 评论