大数据-Hadoop-Spark

最新推荐文章于 2024-06-30 08:00:00 发布

William张

最新推荐文章于 2024-06-30 08:00:00 发布

阅读量192

点赞数

分类专栏：找工作

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MrWilliamVs/article/details/98777955

版权

找工作专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文对比了Hadoop和Spark两大大数据处理框架。Hadoop作为可靠且可扩展的开源分布式计算框架，通过MapReduce实现了大规模数据的并行处理。而Spark则以其速度优势和易用性著称，提供了高性能的批处理和流数据处理能力，同时支持多种编程语言。

摘要由CSDN通过智能技术生成

https://www.jianshu.com/p/831f396a1564 （Hadoop Spark的面经）

Hadoop

可靠的、可扩展的，开源的分布式计算框架。
可以使用简单的编程，跨计算机集群，处理大型数据集合。目的就是，将单个服务器扩展成上千个机器组成的一个集群，为大数据提供计算服务。其中，每个机器都提供本地计算和存储服务。

Hadoop工程包括很多模块：

Hive：提供数据汇总和特定查询的数据仓库。
Spark：用于Hadoop数据的快速通用计算引擎，支付广泛应用的，简单易懂的编程模型，包含ETL\机器学习、流处理和图计算。
ZooKeeper：给分布式应用，提供高性能的协同服务系统。
HBase：一种支持存储大型表的结构化存储的可扩展的分布式数据库。
MapReduce：计算引擎。

MapReduce

Hadoop的MapReduce 是第一代计算引擎， Spark是第二代计算引擎。
MapReduce将复杂的并行计算，抽象到两个函数： Map函数，和 Reduce函数。

在这里插入图片描述
　MapReduce的核心是“分而治之”策略。数据在其MapReduce的生命周期中过程中需要经过六大保护神的洗礼，分别是：Input、Split、Map、Shuffule、Reduce和Output。

https://www.cnblogs.com/wing1995/p/9300120.html

Spark

速度快，查询优化器、 DAG调度器、物理执行引擎，高性能的实现批处理和流数据处理。
易用性，可以使用java、scala、python、 R、 SQL快速的写Spark应用。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。