Spark学习之Spark初识

最新推荐文章于 2024-07-16 20:32:10 发布

深海少女心

最新推荐文章于 2024-07-16 20:32:10 发布

阅读量153

点赞数

分类专栏：大数据理论概念文章标签： spark 学习之路大数据

本文链接：https://blog.csdn.net/weixin_42418158/article/details/96868079

版权

大数据同时被 2 个专栏收录

21 篇文章 1 订阅

订阅专栏

理论概念

11 篇文章 0 订阅

订阅专栏

一、什么是Spark

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架。Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代MapReduce的算法。

Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。可用来构建大型的、低延迟的数据分析应用程序。

为什么学习？

中间结果输出：基于MapReduce的计算引擎通常会将中间结果输出到磁盘上，进行存储和容错。出于任务管道承接的，考虑当一些查询翻译到MapReduce任务时，往往会产生多个Stage，而这些串联的Stage又依赖于底层文件系统（如HDFS）来存储每一个Stage的输出结果。

	Spark是MapReduce的替代方案，而且兼容HDFS、Hive，可融入Hadoop的生态系统，
	以弥补MapReduce的不足。

二、Spark的性能特点

更快的速度
内存计算下，Spark 比 Hadoop 快100倍。
易用性
Spark 提供了80多个高级运算符。
通用性
Spark 提供了大量的库，包括Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX。开发者可以在同一个应用程序中无缝组合使用这些库。
支持多种资源管理器
Spark 支持 Hadoop YARN，Apache Mesos，及其自带的独立集群管理器
兼容性
Spark可以非常方便地与其他的开源产品进行融合。比如，Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，器，并且可以处理所有Hadoop支持的数据，包括HDFS、HBase和Cassandra等。这对于已经部署Hadoop集群的用户特别重要，因为不需要做任何数据迁移就可以使用Spark的强大处理能力。Spark也可以不依赖于第三方的资源管理和调度器，它实现了Standalone作为其内置的资源管理和调度框架，这样进一步降低了Spark的使用门槛，使得所有人都可以非常容易地部署和使用Spark。此外，Spark还提供了在EC2上部署Standalone的Spark集群的工具。

三、Spark的组件介绍

1.Spark Core(任务调度，内存管理)

Spark Core 实现了Spark 的基本功能，包括任务调度，内存管理，错误恢复，和存储系统交互等模块。Spark Core 包括了弹性分布式数据集RDD的API定义，

2.Spark SQL(结构化数据)

Spark SQL 是Spark用来操作结构化数据的程序包，通过spark sql 可以使用SQL或者Hive查询数据，

3.Spark Streaming(实时计算)

Spark Streaming是Spark 提供的实时数据进行流式计算的组件，

4.MLlib(机器学习)

MLlib提供机器学习的程序库，它提供了很多机器学习的算法，包括分类、回归、聚类、协同过滤等，还提供了模型评估，数据导入等支持功能

5.GraphX(图计算)

GraphX是用来操作图的程序库，可以进行并行的图计算。它扩展了Spark的RDD API,能用来创建一个顶点和边都包含任意属性的有向图。

四、应用场景

Yahoo将Spark用在Audience Expansion中的应用，进行点击预测和即席查询等
淘宝技术团队使用了Spark来解决多次迭代的机器学习算法、高计算复杂度的算法等。应用于内容推荐、社区发现等
腾讯大数据精准推荐借助Spark快速迭代的优势，实现了在“数据实时采集、算法实时训练、系统实时预测”的全流程实时并行高维算法，最终成功应用于广点通pCTR投放系统上。
优酷土豆将Spark应用于视频推荐(图计算)、广告业务，主要实现机器学习、图计算等迭代计算。