批处理和流处理如何区分? 有边界数据和无边界数据如何区分?

写在前面

本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和文献引用请见100个问题搞定大数据理论体系

解答

这个世界上的数据可以抽象成为两种,分别是无边界数据( Unbounded Data)和有边界数据( Bounded Data)。

无边界数据

顾名思义,无边界数据是一种不断增长,可以说是无限的数据集。
这种类型的数据,我们无法判定它们到底什么时候会停止发送。
在国外的一些技术文章上,有时候我们会看到“流数据( Streaming Data)”这一说法, 其实它和无边界数据表达的是同一个概念。

有边界数据

与此相反,有边界数据是一种有限的数据集。
这种数据更常见于已经保存好了的数据中。例如,数据库中的数据,或者是我们常见的CSV格式文件中的数据。
有边界数据其实可以看作是无边界数据的一个子集。

批处理

数据的批处理,可以理解为一系列相关联的任务按顺序(或并行)一个接一个地执行。批处理的输入是在一段时间内已经收集保存好的数据。每次批处理所产生的输出也可以作为下ー次批处理的输入。

流处理

数据的流处理可以理解为系统需要接收并处理一系列连续不断变化的数据。例如,旅行预订系统,处理社交媒体更新信息的有关系统等等。
  • 17
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 20
    评论
评论 20
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值