一、大数据分析与处理
1.文件批处理
以MapReduce、Hive为典型代表,批处理模式解决了传统的数据仓库无法处理海量数据的难题。通过批处理计算引擎,使得海量数据分析成为可能。没有批处理引擎的诞生,也就没有今天风风火火的大数据。
数据通常积累达到一个周期后定期运行,也就是所谓的T+1数据,即典型的T为一天,即数据延迟一天。
批处理的业务通常一次可以计算很大量的数据,但对计算的时效性要求不高,通常来说一个HiveSQL可以轻松处理几T的数据,运行时间从几分钟到几小时不等,如果是百亿规模的数据分析时间可能会达到数个小时。
2.内存批处理
以Spark与Impala为典型代表,内存批处理与基于文件批处理很类似,只不过由于数据的处理过程中数据放在内存里(甚至原始数据也在内存里),由于内存的读写速度远远高于磁盘的读写速度,所以一般内存批处理系统的查询计算速度远远高于文件批处理系统的计算速度。
但是内存系统的缺点也是不言而喻的,内存在当今的硬件时代还是比较昂贵,而大数据领域的数据又都是比较庞大的,所以成本还是比较高昂的。