2021-03-02

最新推荐文章于 2022-10-27 09:46:16 发布

qushiru

最新推荐文章于 2022-10-27 09:46:16 发布

阅读量61

点赞数

本文链接：https://blog.csdn.net/qushiru/article/details/114293352

版权

大数据生态与Spark简介

大数据（big data）概念
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据不仅仅是数据的**“大量化”（volume），而是包含“快速化”（velocity），“多样化”（variety），和“价值化”(value)**等多重属性。
**大数据生态：**网络化数据社会与现实社会的有机融合、互动以及协调，形成大数据感知、管理、分析与应用服务的新一代信息技术架构和良性增益的闭环生态系统。
大数据生态圈有Hadoop生态圈和Spark生态圈。

Spark概念
Spark最初由美国加州大学伯克利分校（UC Berkeley）的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序
Spark具有如下几个主要特点：
运行速度快：使用DAG执行引擎以支持循环数据流与内存计算
容易使用：支持使用Scala、Java、Python和R语言进行编程，可以通过Spark Shell进行交互式编程
通用性：Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件
运行模式多样：可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源。

Sparkl同样基于分布式集群进行并行计算, 快速完成计算任务,相对于 MapReduce,很大的一个改变在于,将原本在磁盘上运行的任务转移到内存当中来进行,而基于内存计算的效率, 相比基于磁盘计算,确实要快得多。
SparkI的工作需要配合存储层,例如 Hadoop 中的HDFS分布式文件存储或者 MongoDB、 Cassandra这类数据库来完成。同时,它还需要一个集群的管理器,比如YARN、 Mesos等用来管理相应的数据处理任务。当然 Spark自己也提供集群管理功能,这样集群的每个节点都需要安装 Spark,用于进行任务的编排。发展至今,Spak已经形成了相对完备的大数据处理生态,包括 Spark ML用来处理基于大量数据的机器学习任务, Spark Streaming用于处理小批量的流式数据等。