【Spark学习笔记(二)】

前言

本系列的Spark相关内容大部分来自于尚硅谷的Spark课程,及许利杰、方亚芬老师所著的《大数据处理框架 Apache Spark 设计与实现》。

一、Spark VS Hadoop

1.Hadoop

Hadoop有着自己的生态系统,其结构在随着时间的推移变得更加丰富和完善,而Hadoop最重要的模块则是HDFS和MasoReduce。

  • HDFS:是Hadoop的分布式文件系统,处于Hadoop生态圈的最下层,负责存储所有的数据;
  • MapReduce:是一种编程模型,作为Hadoop的分布式计算模型,也是Hadoop的核心,负责处理海量数据。

MapReduce其实分为两部分,即Map和Reduce。在用户提交一个计算任务后,这个任务被拆分成n个Map映射任务,将前一个Map的输出作为下一个Map的输入,这个过程中数据也在分割后传输到集群中的各节点并行处理,经过一系列的转换后,将结果reduce聚合得到一个结果并输出。

Hadoop作为一种分布式的计算框架,采用“分治–聚合”的策略来处理海量数据,也因此Hadoop更适合用来处理批量数据。

2.Spark

对于数据可复用的应用场景以及流式数据处理的情况下,MapReduce显然有不足之处。Spark就是在传统的MapReduce基础上做了优化,不光解决了这些问题,在计算速度上,Spark在内存中的运行速度比Hadoop快100倍,在磁盘上的运行速度快 10倍。

Spark的几个核心模块&#x

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值