大数据框架

遗忘的代码

已于 2023-07-10 13:01:48 修改

阅读量88

点赞数

分类专栏：大数据文章标签：大数据 hadoop 数据仓库

于 2023-02-12 22:13:33 首次发布

本文链接：https://blog.csdn.net/tt_ndyd/article/details/129000523

版权

大数据专栏收录该内容

2 篇文章 0 订阅

订阅专栏

大数据技术框架

存储引擎：存储海量数据
分布式文件系统HDFS MYSQL 分布式的消息队列
分布式的搜索引擎 keyvalue内存数据库
分析引擎：分析主要数据用途
并行计算引擎
数据仓库共计 HIVE
内存分析工具
分布式OALP分析框架
Spark 统一分析引擎：批处理、离线分析
Flink 实时流式分析引擎：流式处理、实时分析
辅助框架：
分布式集群资源管理
数据转换
日志的采集
调度框架

SPARK框架

基础环境

环境搭建

离线分析

 SParkCore（RDD）、SparkSQL、离线综合实战

实时分析

SparkStreaming StructuredStreaming 实时的综合实战

针对大数据的分析引擎。可以运行在本地环视和集群模式。

本地模式（Local Mode）:启动JVM进程，运行所有Task任务；
集群模式（Cluster Mode）:运行应用在YARN集群或者框架自身集群Standalone，启动多个JVM进程，运行Task程序；
管理者：AppMaster（MR）、Driver Program（Spark）、JobManager(Flink)
干活的：JVM进程晕车Task任务，MapTask和ReaduceTask（MR）、Executer(Spark)、TaskManager(Flink)

Spark框架的概述

Spark 	是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分销AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目，是Scala进行编写项目框架。
		用于大规模数据处理的同意分析引擎。核心数据结构是：RDD（弹性分布式数据集）
		处理数据时，将数据封装到集合RDD，RDD中有很多分区PAR提欧尼，每个分区数据被1个Task处理。