系统设计题

颜渊月和F

已于 2022-05-03 21:22:37 修改

阅读量470

点赞数

分类专栏：大数据文章标签： java 系统设计题

于 2022-05-03 14:27:34 首次发布

本文链接：https://blog.csdn.net/weixin_38813363/article/details/124551122

版权

21 篇文章 1 订阅

订阅专栏

系统设计题回答步骤

功能性需求：

非功能性需求：

通过所有组件来描绘一个高层级设计–系统设计架构图
比如说大概有哪几个部分

具体如何实现，包括技术选型与算法逻辑，使用什么设计模式

确认和存储瓶颈以及一些限制，举例来说就是一以下扩展性议题：

题目理解：对每一个photo有一个counter计数器

使用denormalize方法，和photo，这样每次遇到一个photo时候，不用去数据库里面like。考察的就是数据库的存放方法，使用cache存储照片和数量的映射关系
也要保持一致性

算法角度：实现LFU的数据结构

系统设计角度分析：
会有以下问题：

如果QPS比较高，比如1m。这个数据结构因为要加锁才能处理，所以会比较慢
分享数据本身是分布式的，而不是中心化的，也就是说，比如有1000台web服务器，那么这1000台web服务器的最先获得哪个帖子被分享的数据的，但是这些数据又都分布在这1000台web服务器中，如果用一个中心化的节点来做这个数据结构的服务，那么很显然这个中心节点会成为瓶颈
比如这个系统用在twitter这样的服务中，根据长尾理论，有80%或者更多的帖子连20%都拍不到，而通常来说，从产品的角度，我们可以只需要知道top20最多是top100的数据就可以了。
题目要求5分钟，1小时，24小时，存在较大优化空间
真是产品的实时性和准确性没有那么高，需要查询最近5分钟的topk,结果得出的事最近5分钟02的topk没有问题
查询topk的次数远低于count+1和count-1

优化策略：

分布式统计：distributed 每隔5-10秒向中心节点汇报数据
哪些帖子被分享了多少次这些数据，首先在web_server中进行一次缓存，也就是说如果web server的一个进程接收到一个分享请求之后，会把这个数据先汇报给web server熵跑着的agent进程，这个agent进行在机器刚启动的时候，就会一直运行着，他接受web server上跑着的若干个web进行发过来的count+1请求。这个agent整理好这些数据之后，每隔5-10秒汇报给中心节点。这样子通过5-10s数据延迟解决了中心节点访问频率过高的问题。这个设计思路在业界非常实用
分段统计：level
如果我们要去算最近5分钟的数据，我就按照1秒钟为一个bucket的单位，收集最近300个buckets里面的数据，如果是最近1小时数据，那么就按照1分钟为单位，收集最近60分钟数据。这样的好处是，比如统计最近1小时数据，可以随着时间推移，每次增加当前分钟的所有数据的统计，然后扔掉1小时里最早1分钟的所有数据，这样就不用真的+1/-1了，而是整体+X/-X。
数据抽样：
topk的post,一定被分享了很多次，所以可以进行抽样记录。
缓存cache，永远看cache中数据