关于数据流式处理和批处理的关系（部分机器学习模型）

最新推荐文章于 2023-12-31 01:44:35 发布

Halluy~

最新推荐文章于 2023-12-31 01:44:35 发布

阅读量1.5k

点赞数 1

分类专栏：大数据分析文章标签： kafka hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43017996/article/details/118191043

版权

批流合体：Apache Spark、Apache Flink

大数据技术的广泛应用成为了引领众多行业技术进步、促进效益增长的关键技术。根据数据处理的时效性，将大数据处理方式分为流式处理和批示处理数据两类。其中，可以将批式处理数据方式称为历史大数据的处理，而将流式处理方式可以称为实时大数据的处理。
基于批式处理数据的方式，可以不断积累新的数据内容，积攒经验，在此基础之上，流式处理方式可以极大限度的挖掘数据的潜在价值，而将流批处理方式成为一体的处理方式更具有应用和推广价值。因为流式处理和批式处理的方式都有各自相对应的缺陷，但是如果将流处理和批处理一体化，平衡延时、吞吐和容错等缺陷，得到更好的实现数据的准确分析。批流是逻辑上的分离，而不是具体实现技术的分离。传统上批处理的方式计算自研消耗多，而且时效性太差，通过将原先批处理的链路改造为实时的计算，实现流批一体，节省了资源。

关于流处理：Apache Storm、Apache Samza

流式处理可以让业务报告保持更新，持续响应。流的定义不依赖于某个框架，只需从一个无边界的数据集中读取数据，并对它们进行处理生成结果，而整个过程则必须是持续的。
流式处理的核心目标：
1、低延迟：近实时的数据处理能力，时间跨度在数百毫秒到数秒之间；
2、高吞吐：能处理大批量的数据；
3、容错率高：在数据计算有误的情况下，可容忍错误，并且可以更正错误；
在流式数据处理模式里，数据实时到达系统及时处理新到

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
关于数据流式处理和批处理的关系（部分机器学习模型）

批流合体：Apache Spark、Apache Flink大数据技术的广泛应用成为了引领众多行业技术进步、促进效益增长的关键技术。根据数据处理的时效性，将大数据处理方式分为流式处理和批示处理数据两类。其中，可以将批式处理数据方式称为历史大数据的处理，而将流式处理方式可以称为实时大数据的处理。基于批式处理数据的方式，可以不断积累新的数据内容，积攒经验，在此基础之上，流式处理方式可以极大限度的挖掘数据的潜在价值，而将流批处理方式成为一体的处理方式更具有应用和推广价值。因为流式处理和批式处理的方式都有各自相
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。