5 数据计算平台:让数据“飞”起来
5.1 应用场景一:批处理
批处理计算主要用于处理海量数据,对延时要求不高的场景。最知名的批处理计算框架时Hadoop和Spark框架。目前行业内很多优化的引擎大部分在MR引擎的基础上,引入了很多优化方法,提高了批处理计算的效率和稳定性,但底层的逻辑还是分布式计算逻辑。
5.2 应用场景二:实时计算
5.2.1 实时计算流程
实时计算重点解决离线计算时延时高的问题,通过消息队列对实时数据流进行缓存,然后通过流式计算引擎对数据流进行实时计算,之后将结果指标存放到高速的查询引擎中,从而达到秒级甚至毫秒级别的反馈。
首先通过Flume实时采集数据,然后通过消息队列对采集的数据进行缓存,之后应用流式计算引擎实施计算,最后将计算的结果存储在高速的查询引擎中,以便后续高效地使用这些数据支持报表开发、多维分析或数据挖掘等。
5.2.2 流式计算实时统计GMV(Gross Merchandise Volume,成交总额)