Hadoop能取代mysql吗_Apache Spark会取代Hadoop吗?

Apache Spark是一个用于分布式计算的框架,提供内存计算以提高速度,支持Hadoop数据存储。虽然Spark在批处理、流处理和交互式查询上表现出色,但Hadoop仍然是通用框架,支持多种模型,包括MapReduce。Spark不取代Hadoop,而是作为Hadoop生态系统的一部分,尤其是在机器学习、数据挖掘和实时处理场景中。学习Spark并不依赖于先学习Hadoop,两者在开发和运营上有不同的要求。
摘要由CSDN通过智能技术生成

Apache Spark简介

它是用于在Hadoop等分布式计算集群上执行常规数据分析的框架。它提供内存计算以提高速度,而数据方法则减少地图。它可以在现有Hadoop集群的主要资源上运行并访问Hadoop数据存储(HDFS),还可以使用Hive中的结构化知识以及来自HDFS,Flume,Kafka和Twitter的流知识。

Apache Spark会取代Hadoop吗?

Hadoop是一种并行处理框架,过去一直不会运行地图/减少作业。这些区域单元长时间运行的工作需要几分钟或几小时才能完成。Spark设计为可以在Hadoop的更高版本上运行,它是普通批处理映射/缩减模型的另一种模型,可用于一段时间内的流处理和在几秒钟内结束的快速交互式查询。因此,Hadoop支持每个古老的map / reduce和Spark。

我们应该将Hadoop视为支持多种模型的通用框架,并且应该将Spark视为Hadoop Map Reduce的替代品,而不是Hadoop的替代品。

Hadoop Map Reduce vs. Spark –选择哪一个?

Spark使用更多的RAM而不是网络和磁盘I / O,与Hadoop相比,它相对较快。但是由于它使用大容量RAM,因此需要专用的高端物理机来产生有效的结果

这全都取决于并且这个决定所依赖的变量会随着时间而动态变化。

我需要先学习Hadoop才能学习Apache Spark吗?

不必学习Hadoop就可以了解Spark。Spark是副学位自由职业者项目。但是,一旦YARN和Hadoop 2.0诞生,Spark就成为风尚,因为Spark将在HDFS的主要版本上与其他Hadoop部件一起运行。Spark已成为Hadoop方案中的另一个处理引擎,对所有企业和社区来说都很好,因为它为Hadoop堆栈提供了很多功能。

对于开发人员而言,两者之间几乎没有重叠。Hadoop是一个框架,您可以在其中通过继承Java类来编写Map Reduce作业。Spark是一个通过函数调用实现并行计算的库。

对于运营商来说,运行集群需要掌握一些通用技能,例如监视配置和代码部署。

Spark在Hadoop上的主要用例机器学习中的迭代算法

交互式数据挖掘和数据处理

Spark是与Apache Hive完全兼容的数据仓库系统,其运行速度比Hive快100倍。

流处理:实时流中的日志处理和欺诈检测,以进行警报,汇总和分析

传感器数据处理:在从多个来源获取和合并数据的地方,内存数据集非常有用,因为它们易于处理且快速。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值