Hadoop与Spark基本原理

最新推荐文章于 2024-08-13 17:07:52 发布

宁缺100

最新推荐文章于 2024-08-13 17:07:52 发布

阅读量2.3k

点赞数 2

分类专栏：大数据文章标签： Spark Hadoop Hive Sqoop MapReduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_24434491/article/details/89787824

版权

本文介绍了Hadoop和Spark的基本原理及其特点。Hadoop是一个开源分布式计算平台，核心包括HDFS和MapReduce，适合离线批处理。Spark是基于内存计算的并行计算框架，速度比Hadoop快，支持实时计算，提供SQL查询、流处理、机器学习等功能。Spark还具有更丰富的计算模型和更低的延迟。

摘要由CSDN通过智能技术生成

Hadoop
Spark
Spark 和 Hadoop区别和联系
Hadoop 的 HDFS
Hadoop 的 MapReduce
Spark 宽依赖和窄依赖
Spark RDD运行过程
Spark RDD阶段划分

Hadoop

Hadoop是Apache软件基金旗下的一个开源分布式计算平台，为用户提供系统底层细节透明的分布式基础架构，基于Java开发，有很好的跨平台性，并且可以部署在廉价的计算机上。核心是分布式文件系统HDFS 和 MapReduce。

Hadoop是一个能对大量数据进行分布式处理的软件框架，具有以下特性

高可靠性
高效性：能处理PB级数据
高可扩展性
高容错性：数据冗余存储
成本低
支持多种编程语言

Hadoop由以下项目组成

Common: 各个项目的功能
HDFS：分布式文件系统，对Google GFS的开源实现，高可用和高性能
MapReduce：编程模型，用于大规模数据集的并行运算，将计算过程高度抽象到Map和Reduce两个函数
Hive：基于Hadoop的数据仓库工具，可以对Hadoop文件中的数据集进行数据整理、特殊查询、分析存储 Hi

最低0.47元/天解锁文章

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。