大数据生态与Spark

最新推荐文章于 2023-06-12 12:27:19 发布

M W 。

最新推荐文章于 2023-06-12 12:27:19 发布

阅读量74

点赞数

分类专栏：笔记文章标签： spark 大数据

本文链接：https://blog.csdn.net/qq_52144223/article/details/114301189

版权

笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

##大数据生态与Spark 简介
大数据生态：网络化数据社会与现实社会的有机融合、互动以及协调，形成大数据感知、管理、分析与应用服务的新一代信息技术架构和良性增益的闭环生态系统。
大数据生态圈有Hadoop生态圈和Spark生态圈。
Spark简介
Spark最初由美国加州大学伯克利分校（UC Berkeley）的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。
Spark具有如下几个主要特点：
1.运行速度快：Spark拥有DAG执行引擎，支持在内存中对数据进行迭代计算。官方提供的数据表明，如果数据由磁盘读取，速度是Hadoop MapReduce的10倍以上，如果数据从内存中读取，速度可以高达100多倍。
2.易用性好：Spark不仅支持Scala编写应用程序，而且支持Java和Python等语言进行编写，特别是Scala是一种高效、可拓展的语言，能够用简洁的代码处理较为复杂的处理工作。
3.通用性强：Spark生态圈即BDAS（伯克利数据分析栈）包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等组件，这些组件分别处理Spark Core提供内存计算框架、SparkStreaming的实时处理应用、Spark SQL的即席查询、MLlib或MLbase的机器学习和GraphX的图处理。
4.随处运行：Spark具有很强的适应性，能够读取HDFS、Cassandra、HBase、S3和Techyon为持久层读写原生数据，能够以Mesos、YARN和自身携带的Standalone作为资源管理器调度job，来完成Spark应用程序的计算

M W 。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据生态与Spark

##大数据生态与Spark 简介大数据生态：网络化数据社会与现实社会的有机融合、互动以及协调，形成大数据感知、管理、分析与应用服务的新一代信息技术架构和良性增益的闭环生态系统。大数据生态圈有Hadoop生态圈和Spark生态圈。Spark简介Spark最初由美国加州大学伯克利分校（UC Berkeley）的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。Spark具有如下几个主要特点：1.运行速度快：Spark拥有DAG执行引擎，支持
复制链接

扫一扫