Spark概述-CSDN博客

本文链接：https://blog.csdn.net/2301_78090070/article/details/136451448

1.什么是spark

spark是新一代轻量级大数据处理平台。

2.spark特点是什么？

快速，易用，通用，随处运行，代码简洁。

3.Spark与Hadoop MapReduce的对比：

Hadoop MapReduce采用了多进程模型，而Spark采用了多线程模型

Hadoop MapReduce基于磁盘，数据存放在HDFS中

spark基于内存，数据存放在内存中。

4.什么是结构化数据与非结构化数据？

结构化数据：即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。

非结构化数据：不方便用数据库二维逻辑表来表现的数据，包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。

5.Spark的应用场景是什么？

（1）. Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小;

　　（2）. 由于RDD的特性，Spark不适用那种异步细粒度更新状态的应用，例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合：

　　（3）. 数据量不是特别大，但是要求实时统计分析需求。

6.认识Spark的生态圈

现在Apache Spark已经形成一个丰富的生态圈，包括官方和第三方开发的组件或工具。Spark生态圈也称为伯克利数据分析线（Berkerley Data Analytics Stark，BDAS），由AMPLab打造，是致力于在算法（Algorithm），机器（Machine），人（People）之间通过大规模集成展现大数据应用的平台。

Spark生态圈中重要组件的简要介绍如下：

（1）Spark Core：Spark Core 是整个Spark生态系统的核心组件，是一个分布式大数据处理框架

（2）BlinkDB：BlinkDB旨在提供快速的查询响应时间，同时保持较高的查询准确性。BlinkDB通过牺牲一定的查询准确性来实现低延迟的查询结果，这种权衡使得BlinkDB非常适用于需要快速响应的数据分析场景。

（3）Spark SQL：Spark SQL 的前身是Shark，它发布时Hive 可以说是SQL on Hadoop 的唯一选择（Hive 负责将SQL 编译成可扩展的MapReduce 作业），鉴于Hive 的性能以及与Spark 的兼容，Shark 由此而生。

（4）Spark Steaming：Spark Streaming 是一个对实时数据流进行高吞吐、高容错的流式处理系统，可以对多种数据源（如Kafka、Flume、Twitter 和ZeroMQ 等）进行类似Map、Reduce 和Join 等复杂操作，并将结果保存到外部文件系统、数据库或应用到实时仪表盘

（5）MLBase：MLBase是Spark生态圈里的一部分，专门负责机器学习这块，学习门槛较低

（6）GraphX：GraphX是一个分布式图处理框架，它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口，极大的方便了对分布式图处理的需求

（7）SparkR：

SparkR是一个R语言包，它提供了轻量级的方式使得可以在R语言中使用Apache Spark。在Spark 1.4中，SparkR实现了分布式的data frame，支持类似查询、过滤以及聚合的操作（类似于R中的data frames：dplyr)，但是这个可以操作大规模的数据集。