大数据 Spark 架构

最新推荐文章于 2023-02-08 15:51:41 发布

bzxb1188

最新推荐文章于 2023-02-08 15:51:41 发布

阅读量220

点赞数

文章标签：大数据 spark 架构 hadoop hive

本文链接：https://blog.csdn.net/bzxb1188/article/details/111396443

版权

本文探讨了Spark产生的背景，其轻量级快速处理、易用性、复杂查询支持和实时流处理等特点。相较于MapReduce，Spark在内存计算方面表现出色。Spark架构包括Spark Core和多个应用框架，如Spark SQL、Spark Streaming、MLlib和GraphX。同时，文章对比了Hive与Spark在SQL支持上的差异。

摘要由CSDN通过智能技术生成

一．Spark的产生背景起源

1.spark特点

1.1轻量级快速处理

Saprk允许传统的hadoop集群中的应用程序在内存中已100倍的速度运行即使在磁盘上也比传统的hadoop快10倍，Spark通过减少对磁盘的io达到性能上的提升，他将中间处理的数据放到内存中，spark使用了rdd（resilient distributed datasets）数据抽象

这允许他在内存中存储数据，所以减少了运行时间

1.2 易于使用

spark支持多种语言。Spark允许java，scala python 及R语言，允许shell进行交互式查询

1.3 支持复杂的查询

除了简单的map和reduce操作之外，Spark还支持filter、foreach、reduceByKey、aggregate以及SQL查询、流式查询等复杂查询。Spark更为强大之处是用户可以在同一个工作流中无缝的搭配这些功能，例如Spark可以通过Spark Streaming（1.2.2小节对Spark Streaming有详细介绍）获取流数据，然后对数据进行实时SQL查询或使用MLlib库进行系统推荐，而且这些复杂业务的集成并不复杂，因为它们都基于RDD这一抽象数据集在不同业务过程中进行转换，转换代价小，体现了统一引擎解决不同类型工作场景的特点。

1.4 实时的流处理

对比maprduce只能处理离线数据。Spark还能支持实时的流计算，spark streaming 主要用来对数据进行实时的处理，yarn的nodemanger统一调度管理很厉害，在yarn产生后hadoop也可以整合资源进行实时的处理

2.时事产物

2.1 mapreduce产生时磁盘廉价，因此许多设计收回考虑到内存的使用，而spark产生时内存相对廉价，对计算速度有所要求，因此spark的产生是基于内存计算的框架结构mapreduce需要写复杂的程序进行计算，