大数据-Hadoop-Spark

本文对比了Hadoop和Spark两大大数据处理框架。Hadoop作为可靠且可扩展的开源分布式计算框架,通过MapReduce实现了大规模数据的并行处理。而Spark则以其速度优势和易用性著称,提供了高性能的批处理和流数据处理能力,同时支持多种编程语言。
摘要由CSDN通过智能技术生成

https://www.jianshu.com/p/831f396a1564 (Hadoop Spark的面经)

Hadoop

可靠的、可扩展的,开源的分布式计算框架
可以使用简单的编程,跨计算机集群,处理大型数据集合。 目的就是,将单个服务器扩展成上千个机器组成的一个集群,为大数据提供计算服务。 其中, 每个机器都提供本地计算和存储服务。

Hadoop工程包括很多模块:

Hive: 提供数据汇总和特定查询的数据仓库。
Spark:用于Hadoop数据的快速通用计算引擎,支付广泛应用的,简单易懂的编程模型,包含ETL\机器学习、流处理和图计算。
ZooKeeper:给分布式应用,提供高性能的协同服务系统。
HBase: 一种支持存储大型表的 结构化存储的可扩展的分布式数据库。
MapReduce: 计算引擎。

MapReduce

Hadoop的MapReduce 是第一代计算引擎, Spark是第二代计算引擎。
MapReduce将复杂的并行计算,抽象到两个函数: Map函数,和 Reduce函数。

在这里插入图片描述
 MapReduce的核心是“分而治之”策略。数据在其MapReduce的生命周期中过程中需要经过六大保护神的洗礼,分别是:Input、Split、Map、Shuffule、Reduce和Output。
在这里插入图片描述

https://www.cnblogs.com/wing1995/p/9300120.html

Spark
  1. 速度快, 查询优化器、 DAG调度器、 物理执行引擎,高性能的实现批处理和流数据处理。
  2. 易用性, 可以使用java、scala、python、 R、 SQL快速的写Spark应用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值