-
传统文件系统 + 数据库的数据存储和处理方法
-
批处理大数据架构:分布式存储 + MapReduce
只能批量处理已经落盘的静态数据,无法在数据采集、传输等数据流动的过程中处理数据,因此被称为批处理。
过程:数据源 – ETL(服务器端预处理) – HDFS(分布式存储系统) – MapReduce(分布式数据批处理) – 数据使用如BI工具,数据分析,特征工程
缺点:只能批处理HDFS中的数据,因此延迟性较大,影响实时性。
- 流计算大数据架构:流计算平台 + 存储系统
流计算大数据架构在数据流产生及传递的过程中流式的消费并处理数据,利用“滑动窗口”这个概念,在每个窗口内部,数据被短暂缓存,消费,完成一个窗口的数据处理后,流计算平台滑到下一时间窗口,因此,流计算平台的延迟仅与滑动窗口的大小有关。流计算平台包括:Storm,Spark Streaming,Flink。流计算平台不仅可以进行单个数据流的处理,还可以join不同数据流,bing