大数据实时计算框架简介

本文介绍了实时计算和流式计算的概念,通过自来水厂的比喻解释了实时计算的过程。离线计算与实时计算的主要区别在于数据处理的时间点,前者处理历史数据,后者则关注即时数据。文中列举了如Storm、JStorm、Spark Streaming和Flink等实时计算框架,并指出Flink作为第三代引擎可兼顾离线和实时计算。
摘要由CSDN通过智能技术生成

一、实时计算,流式计算?

实时计算 == 流式计算

自来水厂就是一个典型的实时计算系统:

在这里插入图片描述

自来水厂可以简单的理解为由一个水泵(采集水源),多个蓄水池(处理水源:沉淀,过滤,消毒等步骤),管理员构成。

水泵负责不停的抽水(采集数据 Extract)(除非人为停止水泵,否则水泵会一直工作),各个蓄水池负责对水泵抽来的水进行层层处理(加工转换 Transform),最后一个蓄水池负责将干净的水放到指定位置存储(加载 Load),这一整个过程被称为实时计算。

二、离线计算和实时计算的区别?

  • 离线计算是基于已经存在的数据进行计算。比如说根据过去一个月一年的订单来计算出哪些商品卖的好,哪些商品卖的不好,来进行商品推荐;根据过去十年的天气情况来进行天气预报。主要是对数据进行批量处理。 MapReduce 和 Spark Core 主要用于这方面。一般的流程:Sqoop 采集数据到 HDFS,MapReduce (Spark Core)处理 HDFS 上的数据,最终将计算的结果写回 HDFS。

  • 实时计算关注数据的实时性,处理的是每时每刻产生的数据。Stor

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值