一秒读懂全文:
在数据处理时,如果数据是有界的,便是离线处理;如果数据是无界的,便是实时处理。
基本释义:
大多数人对离线处理和实时处理的区分,是用很感官的“快”、“慢”来完成。实际上,数据量小的情况下,离线处理也可以很快;数据量大的情况下,实时处理也可能很慢。
对于离线和实时处理的定义,严格来说,在数据处理时,如果数据是有界的,便是离线处理;如果数据是无界的,便是实时处理。
如果数据集在被程序处理时,总大小是固定的,那它就是有界数据。数据被处理完成后,计算任务就可以释放掉了。所以批处理方式是更加适合的。
如果数据集在被程序处理时,数量和大小是无法确定的(数据在源源不断产生),那它就是无界数据。此时计算任务需要持续运行,等待实时产生的数据从而完成处理,所以流处理方式是更加适合的。
今日台词:
“凡事都有可能,永远别说永远。”《放牛班的春天》