大数据框架

大数据技术框架

  1. 存储引擎:存储海量数据
    分布式文件系统HDFS MYSQL 分布式的消息队列
    分布式的搜索引擎 keyvalue内存数据库
  2. 分析引擎:分析主要数据用途
    并行计算引擎
    数据仓库共计 HIVE
    内存分析工具
    分布式OALP分析框架
    Spark 统一分析引擎:批处理、离线分析
    Flink 实时流式分析引擎:流式处理、实时分析
  3. 辅助框架:
    分布式集群资源管理
    数据转换
    日志的采集
    调度框架

SPARK框架

基础环境

环境搭建

离线分析

 SParkCore(RDD)、SparkSQL、离线综合实战

实时分析

SparkStreaming StructuredStreaming 实时的综合实战

针对大数据的分析引擎。可以运行在本地环视和集群模式。

  • 本地模式(Local Mode):启动JVM进程,运行所有Task任务;
  • 集群模式(Cluster Mode):运行应用在YARN集群或者框架自身集群Standalone,启动多个JVM进程,运行Task程序;
    管理者:AppMaster(MR)、Driver Program(Spark)、JobManager(Flink)
    干活的:JVM进程晕车Task任务,MapTask和ReaduceTask(MR)、Executer(Spark)、TaskManager(Flink)

Spark框架的概述

Spark 	是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分销AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目,是Scala进行编写项目框架。
		用于大规模数据处理的同意分析引擎。核心数据结构是:RDD(弹性分布式数据集)
		处理数据时,将数据封装到集合RDD,RDD中有很多分区PAR提欧尼,每个分区数据被1个Task处理。

Spark特点

  1. 速度快
  2. 使用容易
  3. 通用
  4. 运行方式
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值