大数据自学——Spark

最新推荐文章于 2023-07-23 10:00:00 发布

lewjin

最新推荐文章于 2023-07-23 10:00:00 发布

阅读量250

点赞数 1

文章标签： spark 大数据

本文链接：https://blog.csdn.net/weixin_42641022/article/details/108824115

版权

Spark自学之路

Spark基础——思维导图

Spark入门的思维导图，哪块不合适还望指正！
#1.1Spark是什么

    Apache Spark 是一个快速的，多用途的计算系统，相对于Hadoop MapReduce将中间结果保存在磁盘中，Spark使用了内存保存中间结果，能在数据尚未写入硬盘时在内存中进行运算。
    Spark只是一个计算框架，不像Hadoop一样包含了分布式文件系统和完备的调度系统，若使用 Spark，需要搭载其它的文件系统和更成熟的调度系统。

#为什么会有Spark

	Spark 产生之前，已经存在非常成熟的计算系统，例如 MapReduce，这些计算系统提供了高层次的API，把计算运行在集群中并提供容错能力，从而实现分布式计算。

MR（MapReduce）的问题：
	1. 计算过程比较缓慢，不适应交互式计算，不适应迭代计算。
	2. 不是所有的计算都由Map 和 Reduce 两个阶段来构成。

Spark解决的问题：
	1. 内存存储中间结果
	2. 提供更好的API，函数式

#1.2Spark的特点

速度快

	· Spark 在内存时的运行速度是Hadoop MapReduce 的100倍
	· 基于硬盘的运算速度大概是Hadoop MapReduce 的10倍
	· Spark 实现了一种叫做RDD 的DAG执行引擎，其数据缓存在内存中可以进行迭代处理

易用

	· Spark 支持Java，Scala，Python，R，SQL等多种语言的API
	· Spark 支持超过80个高级运算符使得非常轻易的构建并行计算程序
	· Spark 可以使用基于Scala，Python，R，SQL的Shell交互式查询

通用

	· Spark提供了一个完整的技术栈，包括SQL执行，Dataset命令式API，机器学习库MLlib，图计算框架GraphX，流计算SparkStreaming
	· 用户可以在同一个应用中同时使用这些工具，这一点是划时代的

兼容

	· Spark可以运行在Hadoop Yarn，Apache Mesos，Kubernets，Spark Standalone等集群中
	· Spark可以访问HBase，HDFS，Hive，Cassandra 在内的多种数据库

总结

· 支持Java，Scala，Python 和 R的API
· 可扩展至超过8K个节点
· 能够在内存中缓存数据集，以实现交互式数据分析
· 提供命令行窗口，减少探索式的数据分析的反应时间

#1.3Spark的组件
目标
理解 Spark 能做什么
理解 Spark 的学习路线

Spark 最核心的功能是 RDDs, RDDs 存在于 spark-core 这个包内, 这个包也是 Spark 最核心的包.同时 Spark 在 spark-core 的上层提供了很多工具, 以便于适应不用类型的计算.

Spark-Core 和弹性分布式数据集(RDDs)

· Spark-Core 是整个 Spark 的基础, 提供了分布式任务调度和基本的 I/O 功能
· Spark 的基础的程序抽象是弹性分布式数据集(RDDs), 是一个可以并行操作, 有容错的数据集合
· RDDs 可以通过引用外部存储系统的数据集创建(如HDFS, HBase), 或者通过现有的 RDDs 转换得到
· RDDs 抽象提供了 Java, Scala, Python 等语言的API
· RDDs 简化了编程复杂性, 操作 RDDs 类似通过 Scala 或者 Java8 的 Streaming 操作本地数据集合

Spark SQL

  · Spark SQL 在 spark-core 基础之上带出了一个名为 DataSet 和 DataFrame 的数据抽象化的概念
  · Spark SQL 提供了在 Dataset 和 DataFrame 之上执行 SQL 的能力
  · Spark SQL 提供了 DSL, 可以通过 Scala, Java, Python 等语言操作 DataSet 和 DataFrame
  · 它还支持使用 JDBC/ODBC 服务器操作 SQL 语言

Spark Streaming

· Spark Streaming 充分利用 spark-core 的快速调度能力来运行流分析
· 它截取小批量的数据并可以对之运行 RDD Transformation
· 它提供了在同一个程序中同时使用流分析和批量分析的能力

MLlib

· MLlib 是 Spark 上分布式机器学习的框架. Spark分布式内存的架构 比 Hadoop磁盘式 的 Apache Mahout 快上 10 倍, 扩展性也非常优良
· MLlib 可以使用许多常见的机器学习和统计算法, 简化大规模机器学习
· 汇总统计, 相关性, 分层抽样, 假设检定, 随即数据生成
· 支持向量机, 回归, 线性回归, 逻辑回归, 决策树, 朴素贝叶斯
· 协同过滤, ALS
· K-means
· SVD奇异值分解, PCA主成分分析
· TF-IDF, Word2Vec, StandardScaler
· SGD随机梯度下降, L-BFGS

GraphX

 · GraphX 是分布式图计算框架, 提供了一组可以表达图计算的 API, GraphX 还对这种抽象化提供了优化运行

总结

· Spark 提供了 批处理(RDDs), 结构化查询(DataFrame), 流计算(SparkStreaming), 机器学习(MLlib), 图计算(GraphX) 等组件
· 这些组件均是依托于通用的计算引擎 RDDs 而构建出的, 所以 spark-core 的 RDDs 是整个 Spark 的基础

#1.4Spark和Hadoop的异同

在这里插入图片描述

lewjin

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据自学——Spark

Spark自学之路Spark基础——思维导图#1.1Spark是什么 Apache Spark 是一个快速的，多用途的计算系统，相对于Hadoop MapReduce将中间结果保存在磁盘中，Spark使用了内存保存中间结果，能在数据尚未写入硬盘时在内存中进行运算。 Spark只是一个计算框架，不像Hadoop一样包含了分布式文件系统和完备的调度系统，若使用 Spark，需要搭载其它的文件系统和更成熟的调度系统。#为什么会有Spark Spark 产生之前，已经存在非常成熟的计算系
复制链接

扫一扫