spark
find_czk
stay hungry,stay foolish.
展开
-
spark RDD常用操作
Spark常用算子分析与应用 1、算子概述 什么是算子 英文翻译为:Operator(简称op) 狭义:指从一个函数空间到另一个函数空间(或它自身)的映射。 广义:指从一个空间到另一个空间的映射 通俗理解:指事物(数据或函数)从一个状态到另外一个状态的过程抽象。 实质就是映射,就是关系,就是变换。 算子的重要作用 算子越少,灵活性越低,则实现相同功能的编程复杂度越高,...原创 2019-08-16 12:10:53 · 1691 阅读 · 0 评论 -
spark core 介绍
Spark Core 1、Spark架构设计 1.1 架构设计图 1.2 相关术语名词解释 RDD (Resilient Distributed DataSet) 弹性分布式数据集,是对数据集在spark存储和计算过程中的一种抽象。 是一组只读、可分区的的分布式数据集合。 一个RDD 包含多个分区Partition(类似于MapReduce中的InputSplit),分区是依照一...原创 2019-08-16 12:50:51 · 8001 阅读 · 1 评论