2021-02-28

最新推荐文章于 2023-04-14 23:57:41 发布

孤海DATA

最新推荐文章于 2023-04-14 23:57:41 发布

阅读量173

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/qq_45981036/article/details/114224987

版权

笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

一、大数据生态
指网络化数据社会与现实社会的有机融合、互动以及协调，形成大数据感知、管理、分析与应用服务的新一代信息技术架构和良性增益的闭环生态系统。
1、大数据概念
大量化、快速化、多样化、价值化等属性。
数据量大：数据类型繁多、处理速度快、价值密度低。
2、大数据的代表性技术
Hadoop、Spark、Flink、Beam。
3、YARN
YARN的目标就是实现“一个集群多个框架”，即在一个集群上部署一个统一的资源调度管理框架YARN，在YARN之上可以部署其他各种计算框架
由YARN为这些计算框架提供统一的资源调度管理服务，并且能够根据各种计算框架的负载需求，调整各自占用的资源，实现集群资源共享和资源弹性收缩
可以实现一个集群上的不同应用负载混搭，有效提高了集群的利用率
不同计算框架可以共享底层存储，避免了数据集跨集群移动
二、Spark
Spark使用Scala语言进行实现，它是一种面向对象、函数式编程语言，Scala语言进行实现，它是一种面向对象、函数式编程语言。
特点：
1.运行速度快：Spark拥有DAG执行引擎，支持在内存中对数据进行迭代计算。官方提供的数据表明，如果数据由磁盘读取，速度是Hadoop MapReduce的10倍以上，如果数据从内存中读取，速度可以高达100多倍。
2.易用性好：Spark不仅支持Scala编写应用程序，而且支持Java和Python等语言进行编写，特别是Scala是一种高效、可拓展的语言，能够用简洁的代码处理较为复杂的处理工作。
3.通用性强：Spark生态圈即BDAS（伯克利数据分析栈）包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等组件，这些组件分别处理Spark Core提供内存计算框架、SparkStreaming的实时处理应用、Spark SQL的即席查询、MLlib或MLbase的机器学习和GraphX的图处理。
4.随处运行：Spark具有很强的适应性，能够读取HDFS、Cassandra、HBase、S3和Techyon为持久层读写原生数据，能够以Mesos、YARN和自身携带的Standalone作为资源管理器调度job，来完成Spark应用程序的计算。