大数据处理引擎简介

本文介绍了三种主要的大数据处理引擎:用于批量处理静态数据的MapReduce,适合在线计算且对实时性要求高的流式处理技术Storm,以及针对大规模图数据处理的Pregel。每种技术都针对不同特性的数据和应用场景进行了优化。
摘要由CSDN通过智能技术生成

三种大数据处理引擎

批量大数据处理

  • 数据特点:静态数据
  • 场景:离散计算,対实时性要求不高
  • 代表技术:MapReduce

MapReduce

  1. 一次计算可以分为映射和规约两个阶段
  2. 拿到数据进行预处理
  3. 先被分成各个数据块
  4. Map阶段:读取数据,生成键(词)值(对应词出现的次数)对形式的中间结果,存储到本地内存,并定期写入磁盘并进行分区交互给Reduce阶段。
  5. Reduce阶段:拿到Map阶段的数据后进行排序,key相同的键值对进行规约累加,计算结果存储到规定位置进行输出。完成所有操作给用户反馈

举例:

在这里插入图片描述

流式大数据处理

  • 数据特点:动态数据;数据在计算过程中,不断更新,无法预先把数据保存
  • 场景:在线计算,对实时性要求高
  • 代表技术:storm

在这里插入图片描述

在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

大规模图处理

  • 数据特点:比较重要,普遍存在生活中的数据,如交通网,社交网数据
  • 代表技术:pregel
    在这里插入图片描述

在这里插入图片描述在这里插入图片描述

  • 研究物体与物体的关系

在这里插入图片描述在这里插入图片描述

在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值