--- Spark学习（1）- Spark及其生态圈概述

最新推荐文章于 2021-08-09 10:24:23 发布

-无妄-

最新推荐文章于 2021-08-09 10:24:23 发布

阅读量1k

点赞数

分类专栏： Spark学习笔记

本文链接：https://blog.csdn.net/bingdianone/article/details/84105561

版权

Spark概述及特点

Apache Spark™是一个统一的分析引擎进行大规模数据处理

快速
更快地运行工作负载100倍。
Apache Spark使用最先进的DAG调度器、查询优化器和物理执行引擎，实现了批处理和流数据的高性能。
易用
用Java、Scala、Python、R和SQL快速编写应用程序。
Spark提供了超过80个高级操作符，使得构建并行应用程序变得容易。可以在Scala、Python、R和SQL shell中交互式地使用它。
通用
结合SQL、流和复杂分析。
Spark支持一系列库，包括SQL和DataFrames、用于机器学习的MLlib、GraphX和Spark流。您可以在同一个应用程序中无缝地组合这些库。
到处运行
Spark运行在Hadoop、Apache Mesos、Kubernetes、独立或云中。它可以访问不同的数据源。
您可以使用Spark的独立集群模式在EC2上、Hadoop YARN上、Mesos上或Kubernetes上运行。访问HDFS、Alluxio、Apache Cassandra、Apache HBase、Apache Hive和其他数百个数据源中的数据。

MapReduce的局限性：

框架多样化：

在这里插入图片描述
Spark官网详细历史：
http://spark.apache.org/news/index.html

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
表格解读：

用例	其他	Spark生态圈
批处理	Hadoop中的MapRdeuce（Java操作MR,Pig,Hive）	Spark RDDs（java/scala/python调用相关api即可）
SQL查询	Hadoop中的Hive	Spark SQL
流处理/实时处理	Storm，Kafka	Spark Streaming
机器学习	Mahout（已停止更新）	Spark ML Lib
实时查询	NoSQL（Hbase,Cassandra等等）	无相关spark组件；但是Spark可以在NoSQL存储中查询数据（api调用即可）

在这里插入图片描述表格解读：

关注