大数据生态与Spark简介_大数据软件全家福-CSDN博客

本文链接：https://blog.csdn.net/m0_46385904/article/details/114286645

一、大数据生态系统

简介：网络化数据社会与现实社会的有机融合、互动以及协调，形成大数据感知、管理、分析与应用服务的新一代信息技术架构和良性增益的闭环生态系统。在大数据处理中，并不是仅靠一个框架就能完成复杂的数据处理工作，而是根据需求需要多个框架共同完成，大致数据流的走向：
这里插入图片描述
可以看到在大数据处理中，主要有实时流处理和离线批处理两种方式，数据源是应用服务器，然后由Flume进行收集，收集后可以直接和Kafka对接，进入缓冲队列，然后由实时流处理框架进行消费，比如Spark Streaming，实时流处理框架把处理后的数据写入关系型数据库MySQL或者HBase中，最后由Web服务将统计数据读取用作其他用途比如数据可视化。另外一条离线批处理则是数据收集后写入HBase中，然后Hadoop的MapReduce框架或者Spark SQL等框架会从中取出数据跑批量处理，并将处理结果写入HDFS供给其他服务调用。

大数据生态的全家福

二、Spark简介

简介：Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量廉价硬件之上，形成集群。

Spark大数据处理框架

相较于国内外较多的大数据处理框架，Spark以其低延时的出色表现，正在成为继Hadoop的MapReduce之后，新的、最具影响的大数据框架之一。以Spark为核心的整个生态圈，最底层为分布式存储系统HDFS、Amazon S3、Mesos，或者其他格式的存储系统（如HBase）；资源管理采用Mesos、YARN等集群资源管理模式，或者Spark自带的独立运行模式，以及本地运行模式。在Spark大数据处理框架中，Spark为上层多种应用提供服务。例如，Spark SQL提供SQL查询服务，性能比Hive快3～50倍；MLlib提供机器学习服务；GraphX提供图计算服务；Spark Streaming将流式计算分解成一系列短小的批处理计算，并且提供高可靠和吞吐量服务。值得说明的是，无论是Spark SQL、Spark Streaming、GraphX还是MLlib，都可以使用Spark核心API处理问题，它们的方法几乎是通用的，处理的数据也可以共享，不仅减少了学习成本，而且其数据无缝集成大大提高了灵活性。

框架中核心组件图：
在这里插入图片描述