数分-理论-大数据8-总结

数分-理论-大数据8-总结

(数据分析系列)

1知识点

  • 框架综述
  • 发展简史
  • 结语

2具体内容

2.1框架综述

大数据框架在总体上分为存储引擎和计算分析引擎

  • 存储引擎通常用来存储海量数据
  • 分析引擎通常用来分析海量数据

在这里插入图片描述

2.2发展简史

在这里插入图片描述

2.2.1萌芽(2003-2008)

Google“三驾马车”:

  • MapReduce:开源分布式并行计算框架
  • BigTable:大型的分布式数据库
  • GFS:Google的分布式文件系统

Hadoop,包括HDFS文件存储系统和MapReduce计算引擎。

  • MapReduce:主要解决可扩展性和容错性问题,从而可以通过使用简单的API,专注于大数据处理。其缺点是抽象层次太低,不便于工作流的编写。
  • FlumeJava:主要解决MapReduce抽象层次太低的问题,解决单个MapReduce无法满足复杂业务场景的问题,专注自动优化编写的逻辑管道。
2.2.2快速进展(2009-2014)

1.spark

  • 内存计算,提高了速度;
  • 引入RDD概念,数据可重放,实现一致性;
  • RDD的抽象概念,使数据流的处理很方便,代码编写简单。
  • 缺点:Spark Streaming的实时计算,是伪实时、mini-batch的,不能真正覆盖实时应用的场景。

2.storm

  • event级别实时计算,毫秒级低延迟,能满足实时需求
  • 较低的一致性保证;无状态;不支持SQL。
  • 提出Lambda架构(即离线计算+实时计算的架构)
2.2.3成熟(2015-)

1.dataflow

  • 抽象出一个具有足够普遍性和灵活性的模型,通过执行引擎的选择,转换为延迟程度和处理成本之间的选择
  • The Dataflow Model
    2.Flink:流式处理
  • Flink不同于Spark的批处理(batch processing),它主要用于数据的流处理(streaming processing)
  • 将输入看做一条stream,将函数应用到stream上,再进行输出
  • 底层是流式处理,上层也是基于流式处理构建的batch,通过记录流式处理的start point,以及维护运行过程中的state实现一个窗口的batch处理
2.2.4大数据分析引擎
  1. 改进编程模型,让我们用更简单的API,写出更复杂的业务处理逻辑;
  2. 提高处理效率,效率必然是不可缺少的;
  3. 扩大解决的问题领域,一个处理引擎,能够处理更多的业务场景,意味着更少的维护成本、更少的集群投入、更简单的架构。

2.3结语

  • 大数据概念
  • 大数据处理架构Hadoop
  • 分布式文件系统HDFS
  • 分布式数据库HBase
  • 分布式并行编程模型MapReduce
  • 数据仓库Hive
  • 大数据框架Spark

3参考

  • https://github.com/shenhao-stu/Big-Data/
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值