大数据开发
1、实时数据平台整体架构
实时数据平台的支撑技术主要包含四个方面:实时数据采集(如Flume),消息中间件(如Kafka), 流计算框架(如Storm, Spark, Flink和Beam),以及数据实时存储(如列族存储的HBase)
实时数据平台最为核心的技术是流计算。
2、流计算
流计算的典型特征:
1、无边界:流计算的数据源头是源源不断的,就像河水一样不停第流过来,相应地,流计算任务也需要始终运行。
2、触发:不同于Hadoop离线任务是定时调度触发,流计算任务的每次计算是由源头数据触发的。触发是流计算的一个非常重要的概念,在某些业务场景下,触发消息的逻辑比较复杂,对流计算挑战很大。
3、延迟:很显然,流计算必须能高效地、迅速地处理数据。不同于Hadoop任务至少以分组甚至小时计的处理延迟,流计算的延迟通常在秒甚至毫秒级,分组级别的延迟只有在特殊情况下才能被接受。<