基于 Kafka 的实时数仓在搜索的实践应用

最新推荐文章于 2023-11-21 17:30:00 发布

VIP文章站在风口的java

最新推荐文章于 2023-11-21 17:30:00 发布

阅读量156

点赞数 1

分类专栏：技术 java 文章标签： kafka big data 分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_65634190/article/details/123184571

版权

一、概述

Apache Kafka 发展至今，已经是一个很成熟的消息队列组件了，也是大数据生态圈中不可或缺的一员。Apache Kafka 社区非常的活跃，通过社区成员不断的贡献代码和迭代项目，使得 Apache Kafka 功能越发丰富、性能越发稳定，成为企业大数据技术架构解决方案中重要的一环。

Apache Kafka 作为一个热门消息队列中间件，具备高效可靠的消息处理能力，且拥有非常广泛的应用领域。那么，今天就来聊一聊基于 Kafka 的实时数仓在搜索的实践应用。

二、为什么需要 Kafka

在设计大数据技术架构之前，通常会做一些技术调研。我们会去思考一下为什么需要 Kafka？怎么判断选择的 Kafka 技术能否满足当前的技术要求？

2.1 早期的数据架构

早期的数据类型比较简单，业务架构也比较简单，就是将需要的数据存储下来。比如将游戏类的数据存储到数据库（MySQL、Oracle）。但是，随着业务的增量，存储的数据类型也随之增加了，然后我们需要使用的大数据集群，利用数据仓库来将这些数据进行分类存储，如下图所示：

但是，数据仓库存储数据是有时延的，通常时延为T+1。而现在的数据服务对象对时延要求均有很高的要求，例如物联网、微服务、移动端APP等等，皆需要实时处理这些数据。

2.2 Kafka 的出现

Kafka 的出现，给日益增长的复杂业务，提供了新的存储方案。将各种复杂的业务数据统一存储到 Kafka 里面，然后在通过 Kafka 做数据分流。如下图所示：

这里，可以将视频、游戏、音乐等不同类型的数据统一存储到 Kafka 里面，然后在通过流处理对 Kafka 里面的数据做分流操作。例如，将数据存储到数据仓库、将计算的结果存储到KV做实时分析等。

通常消息系统常见的有两种，它们分别是：

消息队列：队列消费者充当了工作组的角色，每条消息记录只能传递给一个工作进程，从而有效的划分工作流程；
生产&消费：消费者通常是互相独立的，每个消费者都可以获得每条消息的副本。

这两种方式都是有效和实用的，通过消息队列将工作内容分开，用于容错和扩展；生产和消费能够允许多租户，来使得系统解耦。而 Apache Kafka 的优点之一在于它将消息队列、生产和消费结合到了一个强大的消息系统当中。

同时，Kafka 拥有正确的消息处理特性，主要体现在以下几个方面：

可扩展性：当 Kafka 的性能（如存储、吞吐等）达到瓶颈时，可以通过水平扩展来提升性能；
真实存储：Kafka 的数据是实时落地在磁盘上的，不会因为集群重启或故障而丢失数据；

最低0.47元/天解锁文章

站在风口的java

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
基于 Kafka 的实时数仓在搜索的实践应用

一、概述Apache Kafka 发展至今，已经是一个很成熟的消息队列组件了，也是大数据生态圈中不可或缺的一员。Apache Kafka 社区非常的活跃，通过社区成员不断的贡献代码和迭代项目，使得 Apache Kafka 功能越发丰富、性能越发稳定，成为企业大数据技术架构解决方案中重要的一环。Apache Kafka 作为一个热门消息队列中间件，具备高效可靠的消息处理能力，且拥有非常广泛的应用领域。那么，今天就来聊一聊基于 Kafka 的实时数仓在搜索的实践应用。二、为什么需要 Kafka在设计大
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。