大数据技术原理与应用 第三版 林子雨 期末复习(五) 第十章 SPARK

大数据技术原理与应用 第三版 林子雨 期末复习(五) 第十章 SPARK
摘要由CSDN通过智能技术生成

大数据技术原理与应用 第三版 林子雨 期末复习(五)第十章 SPARK

简介

spark是基于内存的大数据分布式并行计算框架,用于构建复杂的低延迟的数据分析应用

spark特点

运行速度快
容易使用
通用性好
运行模式多样

spark与Hadoop对比

Hadoop缺点

表达能力有限
磁盘IO开销大
延迟高

spark优点

spark计算模式属于MapReduce但是比MapReduce灵活
spark基于内存进行运算,所以计算速度快
spark具有基于DAG的任务调度执行机制,优于MapReduce迭代执行机制

RDD

RDD概念

spark的核心建立在统一抽象的rdd之上,简单来说一个RDD就是一个分布式对象合集,本质上是一个只读的分区记录合集

RDD有两种操作转换与执行,在转换时不尽兴计算接受一个RDD返还也是一个RDD二行动操作则执行计算操作,接受一个RDD同时返还数值

在这里插入图片描述

RDD间存在依赖关系分为宽依赖与窄依赖

宽依赖:一对多
窄依赖:多对一、一对一

RDD的两种常用操作

  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值