大数据处理为何选择Spark，而不是Hadoop

最新推荐文章于 2021-08-13 15:46:12 发布

Myhoooyo

最新推荐文章于 2021-08-13 15:46:12 发布

阅读量457

点赞数

分类专栏：大数据互联网资讯大数据技术大数据应用程序人生文章标签：大数据程序员编程语言

本文链接：https://blog.csdn.net/Myhoooyo/article/details/89812614

版权

大数据同时被 3 个专栏收录

48 篇文章 0 订阅

订阅专栏

互联网资讯

48 篇文章 0 订阅

订阅专栏

大数据技术

48 篇文章 0 订阅

订阅专栏

　　Spark是一个用来实现快速而通用的集群计算的平台。在速度方面，Spark扩展了广泛使用的MapReduce计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。

　　一.基础知识

　　1.Spark

　　Spark是一个用来实现快速而通用的集群计算的平台。

　　在速度方面，Spark扩展了广泛使用的MapReduce计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。

　　Spark项目包含多个紧密集成的组件。Spark的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。

Spark的各个组件

对大数据以及人工智能概念都是模糊不清的，该按照什么线路去学习，学完往哪方面发展，想深入了解，想学习的同学欢迎加入大数据学习qq群：458345782，有大量干货（零基础以及进阶的经典实战）分享给大家，并且有清华大学毕业的资深大数据讲师给大家免费授课，给大家分享目前国内最完整的大数据高端实战实用学习流程体系。从java和linux入手，其后逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相关知识一一分享！

　　2.Hadoop

　　Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

　　用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

　　Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

　　二.大数据处理选择

　　根据Spark和Hadoop的基础知识，我们了解Spark和Hadoop都可以进行大数据处理，那我们如何选择处理平台呢?

　　1.处理速度和性能

　　Spark扩展了广泛使用的MapReduce计算模型，其中Spark有个Directed Acyclic Graph(DAG有向无环图)执行引擎，支持循环数据流和内存计算。

　　Hadoop是磁盘级计算，进行计算时，都需要从磁盘读或者写数据，同时整个计算模型需要网络传输，导致MapReduce具有高延迟的致命弱点。

　　据统计，基于Spark内存的计算速度比Hadoop MapReduce快100倍以上，基于磁盘的计算速度也要快10倍以上。

　　2.开发难易度

　　Spark提供多语言(包括Scala、Java、Python)API，能够快速实现应用，相比MapReduce更简洁的代码，安装部署也无需复杂配置。使用API可以轻松地构建分布式应用，同时也可以使用Scala和Python脚本进行交互式编程。

　　3.兼容性

　　Spark提供了一个强大的技术栈，基于”One Stack to rule them all”的理念实现一体化、多元化的大数据处理平台，轻松应对大数据处理的查询语言Spark SQL、机器学习工具MLlib、图计算工具GraphX、实时流处理工具Spark Streaming无缝连接。

　　Hadoop的技术栈则相对独立复杂，各个框架都是独立的系统，给集成带来了很大的复杂和不确定性。

　　4.相互集成性

　　Spark可以运行在Hadoop集群管理Yarn上，这使得Spark可以读取Hadoop的任何数据。同时它也能读取HDFS、HBase、Hive、Cassandra以及任何Hadoop数据源。

Myhoooyo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据处理为何选择Spark，而不是Hadoop

　　Spark是一个用来实现快速而通用的集群计算的平台。在速度方面，Spark扩展了广泛使用的MapReduce计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。　　一.基础知识　　1.Spark　　Spark是一个用来实现快速而通用的集群计算的平台。　　在速度方面，Spark扩展了广泛使用的MapReduce计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。　　Sp...
复制链接

扫一扫

专栏目录