大数据生态与Spark简介

最新推荐文章于 2021-03-03 11:51:54 发布

Apple_杨

最新推荐文章于 2021-03-03 11:51:54 发布

阅读量2.6k

点赞数 3

文章标签： spark hadoop hdfs mapreduce

本文链接：https://blog.csdn.net/Python_Apple/article/details/114154853

版权

大数据生态与spark简介

首先了解一下，大数据是什么呢？

大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的四大V：数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值密度低(Value)

第一代诞生的大数据生态圈是由Google通过各种发表关于Hadoop的相关论文，开源等措施推动的，然后各个成员跟随，例如Apache等。其标志性的组件为：Hadoop HDFS、Hadoop MapReduce, HBase、Hive。伴随着上面四个组件的成熟，第一代大数据生态圈逐渐成型。其整体架构见下图：
在这里插入图片描述

spark又是什么呢？

很多的时间场景下，Hadoop的计算速度以及模式已经不能完全的满足计算分析的需求，所以，在hadoop的基础上，我们增加了另外一个新的技术===Spark
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。现在形成一个高速发展应用广泛的生态系统。

Spark最初由美国加州大学伯克利分校（UC Berkeley）的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序
在这里插入图片描述

Spark具有如下几个主要特点：

•运行速度快：使用DAG执行引擎以支持循环数据流与内存计算
•容易使用：支持使用Scala、Java、Python和R语言进行编程，可以通过Spark Shell进行交互式编程
•通用性：Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件
•运行模式多样：可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源

为提高spark的容错性，引进了分布式弹性数据集（RDD）的抽象
他是分布在节点上的一组只读数据集合，可以通过不同的算子进行操作，而这些算子主要可以分为三类：
1、transformation类算子：代表的map、flatmap等，是一种延迟操作，提前对数据进行操作

2、Action类算子：触发transformation类的执行，提交job，并将数据输出spark

3、持久化类算子：cache、persist算子，将数据持久化到内存，提升了计算的效率

Spark好用的地方在于
首先，高级 API 剥离了对集群本身的关注，Spark 应用开发者可以专注于应用所要做的计算本身。

其次，Spark 很快，支持交互式计算和复杂算法。

最后，Spark 是一个通用引擎，可用它来完成各种各样的运算，包括 SQL 查询、文本处理、机器学习等，而在 Spark 出现之前，我们一般需要学习各种各样的引擎来分别处理这些需求。