淘宝大数据之流式计算

      到底什么是大数据?大数据与数据统计有什么区别?如果不理解大数据的承载底层技术,很难讲清楚。因此作为解决方案经理,技术与业务都是作为方案不可缺少的组成部分。今天我们来看一下大数据之流式计算。

 

      一、流式计算的应用场景

      我们上一章讲到了数据采集。数据采集之后,如何利用数据呢?将采集的数据快速计算后反馈给客户,这便于流式计算。 流式计算在物联网、互联网行业应用非常之广泛。在电商“双11”节中,不断滚动的金额数据;在交通展示大通,不断增加的车辆数据,这些都是流式计算的应用场景。

      二、数据时效性的三种分类

      离线:在今天(T)处理N天(N>1)前的数据,延迟时间粒度为天。例如我们想统记手环记录的全年分24小时的每小时跑步数情况。

      准实时:在当前小时(H)处理N小时前(N>1)小时前的数据,延延时间粒度为小时。

      实时:在当前时刻处理当前的数据,延迟时间粒度为秒。例如,我们想实时展示全市的各采集点的空气质量情况。

 

      三、离线、流式数据的处理要求

      1、对于离线、准实时数据都可以在批处理系统中实现(比如MapReduce、MaxCompute),对于此类数据,数据源一般来源于数据库(HBase、Mysql等),而且采用了分布式计算,因此具有处理时间长、处理数据量大的特别,MapReduce不适合处理实时数据。

      2、流式数据是指业务系统每产生一条数据,就会立刻被发送至流式任务中进行处理,而不需要定时调度任务来处理数据。中间可能会经过消息中间件(MQ),作用仅限于削峰等流控作用。

 

      四、流式数据的特点

      1、时间效高。数据采集、处理,整个时间秒级甚至毫秒级。

      2、常驻任务、资源消耗大。区别于离线任务的手工、定期调度,流式任务属于常驻进程任务,会一直常驻内存运行,计算成本高。

      3、性能要求高。如果实时任务1分钟只能处理30秒钟采集的数据,那么只能造成系统崩溃。

      4、应用局限性。实时数据处理不能代替离线处理。例如想统计过去一年的电商消耗金额,这个任务不需要随时执行,只需要一 次;如果用实时数据处理只是浪费社会资源。

 

      五、流式数据的技术架构

      1、数据采集

      数据的源头,一般来自于业务的日志服务器或物联网终端等。这些数据被实时采集到数据中间件,供下游订阅。

      2、数据处理

      下游任务(Spark、Storm、Flink、StreamCompute等应用)实时订阅数据,并进行实时数据处理。

      3、数据处理

      数据实时加工后,会被写到个在线服务存储系统(一般是Redis、MangoDB、HBase等高速数据库)借助大屏应用读取。

      4、数据服务

      通过UI、BI等界面展示程序,将数据实时投影到大屏中,形成大家看到的图形、不断变幻的数字。

     

希望以上文章能帮到您。

更多内容实时更新,请访问公众号。    

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值