关于数据流式处理和批处理的关系(部分机器学习模型)

批流合体:Apache Spark、Apache Flink

大数据技术的广泛应用成为了引领众多行业技术进步、促进效益增长的关键技术。根据数据处理的时效性,将大数据处理方式分为流式处理和批示处理数据两类。其中,可以将批式处理数据方式称为历史大数据的处理,而将流式处理方式可以称为实时大数据的处理。
基于批式处理数据的方式,可以不断积累新的数据内容,积攒经验,在此基础之上,流式处理方式可以极大限度的挖掘数据的潜在价值,而将流批处理方式成为一体的处理方式更具有应用和推广价值。因为流式处理和批式处理的方式都有各自相对应的缺陷,但是如果将流处理和批处理一体化,平衡延时、吞吐和容错等缺陷,得到更好的实现数据的准确分析。批流是逻辑上的分离,而不是具体实现技术的分离。传统上批处理的方式计算自研消耗多,而且时效性太差,通过将原先批处理的链路改造为实时的计算,实现流批一体,节省了资源。

关于流处理:Apache Storm、Apache Samza

流式处理可以让业务报告保持更新,持续响应。流的定义不依赖于某个框架,只需从一个无边界的数据集中读取数据,并对它们进行处理生成结果,而整个过程则必须是持续的。
流式处理的核心目标:
1、 低延迟:近实时的数据处理能力,时间跨度在数百毫秒到数秒之间;
2、 高吞吐:能处理大批量的数据;
3、 容错率高:在数据计算有误的情况下,可容忍错误,并且可以更正错误;
在流式数据处理模式里,数据实时到达系统及时处理新到

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值