大数据学习笔记5 - Spark

weixin_30617561

于 2019-04-17 10:34:00 发布

阅读量69

点赞数

原文链接：http://www.cnblogs.com/Jing-Wang/p/10721948.html

版权

Spark是一个基于内存计算的大数据并行计算框架。所以，Spark并不能完全替代Hadoop，主要用于替代Hadoop中的MapReduce计算模型。

在实际应用中，大数据处理无非是以下几个类型：

复杂的批量数据处理，这种类型的处理时间跨度通常在数十分钟到数小时之间，处理这种数据的工具有Hadoop MapReduce；

基于历史数据的交互式查询，时间跨度一般在数十秒到数分钟之间，处理工具如Impala、Hive；

基于实时数据流的数据处理，这样的时间跨度一般在数百毫秒到数秒之间，处理工具如Storm。

可以看到，不同数据处理类型对应着不同处理工具，如果三种场景都存在的话，就需要同时部署这些工具，这就造成了一些问题，最直观的是维护难度增加、系统资源调度难度增加，还有就是不同场景之间输入输出数据数据格式不一致，应用时需要进行转换。

Spark的诞生就是基于这样的需求。

转载于:https://www.cnblogs.com/Jing-Wang/p/10721948.html

weixin_30617561

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据学习笔记5 - Spark

Spark是一个基于内存计算的大数据并行计算框架。所以，Spark并不能完全替代Hadoop，主要用于替代Hadoop中的MapReduce计算模型。在实际应用中，大数据处理无非是以下几个类型：复杂的批量数据处理，这种类型的处理时间跨度通常在数十分钟到数小时之间，处理这种数据的工具有Hadoop MapReduce；基于历史数据的交互式查询，时间跨度一般在数十秒到数分钟之间，处理工具如...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。