大数据处理中的实时流式处理

最新推荐文章于 2023-12-27 18:07:34 发布

leaf13

最新推荐文章于 2023-12-27 18:07:34 发布

阅读量1.7k

点赞数

分类专栏：其它文章标签：实时流式处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/leaf13/article/details/102837453

版权

其它专栏收录该内容

16 篇文章 0 订阅

订阅专栏

大数据的实时流式处理问题的特点

数据源源不断的到来；
数据需要尽快的得到处理，不能产生积压；
处理之后的数据量依然巨大，仍然后TB级甚至PB级的数据量；
处理的结果能够尽快的展现；

以上四个特点可以总结为

数据的收集->数据的传输->数据的处理->数据的展现

其中数据的处理一般涉及数据的聚合，数据的处理和展现能够在秒级或者毫秒级得到响应。针对这些问题目前形成了 Flume + kafka + Storm / Spark + Hbase / Redis 的技术架构。

（1）何为Flume ？

Flume 专注于大数据的收集和传输，用来解决在线分析处理特点，数据源源不断的到来的问题。类似的大数据开源系统有 Logstash 和 Fluentd 。
在这里插入图片描述
架构图中 Source 用来连接输出源，Sink 用来连接输出源，Channel 是 Flume 内部数据传输通道(主要包括 Memory Channel 和 File Channel)。其中 Source 连接的输入源可以但不限于：

AvroThriftExec(unix command output)JMS (Java Message Service)KafkaNetCat (可以使用 nc –lk port 测试)SyslogCustom

其中 Sink 连接的输出源可以但不限于：

HdfsHiveAvroThriftFile RollHbaseElasticSearch (提供的功能和 Logstash 一样，但是不如Logstash 丰富，大多数时候需要自己构造 ElasticSearch 文档和索引)KafkaCustom

（2）kafka:负责数据的缓冲，和解耦作用
（3）spark:负责实时处理计算
（4）Hbase和redis负责存储处理后的数据供外部查询。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据处理中的实时流式处理

大数据的实时流式处理问题的特点数据源源不断的到来；数据需要尽快的得到处理，不能产生积压；处理之后的数据量依然巨大，仍然后TB级甚至PB级的数据量；处理的结果能够尽快的展现；以上四个特点可以总结为数据的收集->数据的传输->数据的处理->数据的展现其中数据的处理一般涉及数据的聚合，数据的处理和展现能够在秒级或者毫秒级得到响应。针对这些问题目前形成了 Flume +...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。