揭秘|每秒千万级的实时数据处理是怎么实现的？

最新推荐文章于 2023-06-18 21:28:57 发布

叫我不矜持

最新推荐文章于 2023-06-18 21:28:57 发布

阅读量2k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/smallcatbaby/article/details/93545606

版权

1、设计背景

闲鱼目前实际生产部署环境越来越复杂，横向依赖各种服务盘宗错节，纵向依赖的运行环境也越来越复杂。当服务出现问题的时候，能否及时在海量的数据中定位到问题根因，成为考验闲鱼服务能力的一个严峻挑战。

线上出现问题时常常需要十多分钟，甚至更长时间才能找到问题原因，因此一个能够快速进行自动诊断的系统需求就应用而生，而快速诊断的基础是一个高性能的实时数据处理系统。

这个实时数据处理系统需要具备如下的能力：

1、数据实时采集、实时分析、复杂计算、分析结果持久化。
2、可以处理多种多样的数据。包含应用日志、主机性能监控指标、调用链路图。
3、高可靠性。系统不出问题且数据不能丢。
4、高性能，底延时。数据处理的延时不超过3秒，支持每秒千万级的数据处理。

本文不涉及问题自动诊断的具体分析模型，只讨论整体实时数据处理链路的设计。

2、输入输出定义

为了便于理解系统的运转，我们定义该系统整体输入和输出如下：

输入：

服务请求日志（包含traceid、时间戳、客户端ip、服务端ip、耗时、返回码、服务名、方法名）

环境监控数据（指标名称、ip、时间戳、指标值）。比如cpu、 jvm gc次数、jvm gc耗时、数据库指标。

输出：

一段时间内的某个服务出现错误的根因，每个服务的错误分析结果用一张有向无环图表达。（根节点即是被分析的错误节点，叶子节点即是错误根因节点。叶子节点可能是一个外部依赖的服务错误也可能是jvm异常等等）。

3、架构设计

在实际的系统运行过程中，随着时间的推移，日志数据以及监控数据是源源不断的在产生的。每条产生的数据都有一个自己的时间戳。而实时传输这些带有时间戳的数据就像水在不同的管道中流动一样。

如果把源源不断的实时数据比作流水，那数据处理过程和自来水生产的过程也是类似的：

最低0.47元/天解锁文章

叫我不矜持

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
揭秘|每秒千万级的实时数据处理是怎么实现的？

1、设计背景闲鱼目前实际生产部署环境越来越复杂，横向依赖各种服务盘宗错节，纵向依赖的运行环境也越来越复杂。当服务出现问题的时候，能否及时在海量的数据中定位到问题根因，成为考验闲鱼服务能力的一个严峻挑战。线上出现问题时常常需要十多分钟，甚至更长时间才能找到问题原因，因此一个能够快速进行自动诊断的系统需求就应用而生，而快速诊断的基础是一个高性能的实时数据处...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。