Hadoop, HIve, Spark关系简述

最新推荐文章于 2024-05-16 20:12:02 发布

小白兔奶糖ovo

最新推荐文章于 2024-05-16 20:12:02 发布

阅读量648

点赞数 5

文章标签： hadoop hive spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_54053990/article/details/135897229

版权

待做专栏收录该内容

7 篇文章 0 订阅

订阅专栏

大数据∈数据管理系统的范畴

数据管理系统：
1. 数据怎么存？
2. 数据怎么算？

单机数据管理时代下，

数据处理的任务：IO密集型；
数据存不下？
- HDFS用于存放多机器的数据并提供相关Api接口。
  HDFS中引入了一个模块：MapReduce（基于磁盘计算）。
  MapReduce：提供了一个任务并行的框架，通过它的Api抽象让用户把这个并行程序分成两个阶段，即Map阶段（分工），Reduce阶段（汇总）。

Hive：在Hadoop上写SQL，进行结构化处理的解决方案（类似的方案还有impala，presto等）

SQL中的S就是结构化处理的意思。
核心模块：metastore，用于存储结构化的信息

Spark：计算框架（基于内存计算）

提供了streaming的模块，用于写流处理的程序；
提供了Mlib的模块，用于写机器学习的程序；
提供了GraphX的模块，用于写图处理的程序。

sum

小白兔奶糖ovo

关注

5
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Hadoop, HIve, Spark关系简述

上写SQL，进行结构化处理的解决方案（类似的方案还有impala，presto等）大数据∈数据管理系统的范畴。：计算框架（基于内存计算）单机数据管理时代下，
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。