王争数据结构域算法之美实战题整理

1.假设猎聘网有 10 万名猎头顾问,每个猎头顾问都可以通过做任务(比如发布职位),来积累积分,然后通过积分来下载简历。假设你是猎聘网的一名工程师,如何在内存中存储这 10 万个猎头 ID 和积分信息,让它能够支持这样几个操作:

  • 根据猎头的 ID 快速查找、删除、更新这个猎头的积分信息;
  • 查找积分在某个区间的猎头 ID 列表;
  • 查询积分从小到大排在第 x 位的猎头 ID 信息;
  • 查找按照积分从小到大排名在第 x 位到第 y 位之间的猎头 ID 列表。

这个问题既要通过 ID 来查询,又要通过积分来查询,所以,对于猎头这样一个对象,我们需要将其组织成两种数据结构,才能支持这两类操作。我们按照 ID,将猎头信息组织成散列表。这样,就可以根据 ID 信息快速地查找、删除、更新猎头的信息。再按照积分将猎头信息组织成跳表这种数据结构,按照积分来查找猎头信息,就非常高效,时间复杂度是 O(logn)。按照排名来查询可以对刚刚的跳表进行改造,每个索引结点中加入一个 span 字段,记录这个索引结点到下一个索引结点的包含的链表结点的个数。这样就可以利用跳表索引,快速计算出排名在某一位的猎头或者排名在某个区间的猎头列表。实际上,这些就是 Redis 中有序集合这种数据类型的实现原理。在开发中,我们并不需要从零开始代码实现一个散列表和跳表,我们可以直接利用 Redis 的有序集合来完成。

2.假设我们现在希望设计一个简单的海量图片存储系统,最大预期能够存储 1 亿张图片,并且希望这个海量图片存储系统具有下面这样几个功能:

  • 存储一张图片及其它的元信息,主要的元信息有:图片名称以及一组 tag 信息。比如图片名称叫玫瑰花,tag 信息是{红色,花,情人节};
  • 根据关键词搜索一张图片,比如关键词是“情人节 花”“玫瑰花”;
  • 避免重复插入相同的图片。这里,我们不能单纯地用图片的元信息,来比对是否是同一张图片,因为有可能存在名称相同但图片内容不同,或者名称不同图片内容相同的情况。

我们希望自主开发一个简单的系统,不希望借助和维护过于复杂的三方系统,比如数据库(MySQL、Redis 等)、分布式存储系统(GFS、Bigtable 等),并且我们单台机器的性能有限,比如硬盘只有 1TB,内存只有 2GB,如何设计一个符合我们上面要求,操作高效,且使用机器资源最少的存储系统呢?

这个问题可以分成两部分,第一部分是根据元信息的搜索功能,第二部分是图片判重。
第一部分,我们可以借助搜索引擎中的倒排索引结构。如题目中所说,一个图片会对应一组元信息,比如玫瑰花对应{红色,花,情人节},牡丹花对应{白色,花},我们可以将这种图片与元信息之间的关系,倒置过来建立索引。“花”这个关键词对应{玫瑰花,牡丹花},“红色”对应{玫瑰花},“白色”对应{牡丹花},“情人节”对应{玫瑰花}。当我们搜索“情人节 花”的时候,我们拿两个搜索关键词分别在倒排索引中查找,“花”查找到了{玫瑰花,牡丹花},“情人节”查找到了{玫瑰花},两个关键词对应的结果取交集,就是最终的结果。
第二部分关于图片判重,我们要基于图片本身来判重,所以可以用哈希算法,对图片内容取哈希值。我们对哈希值建立散列表,这样就可以通过哈希值以及散列表,快速判断图片是否存在。

3.我们知道,散列表的查询效率并不能笼统地说成是 O(1)。它跟散列函数、装载因子、散列冲突等都有关系。如果散列函数设计得不好,或者装载因子过高,都可能导致散列冲突发生的概率升高,查询效率下降。在极端情况下,有些恶意的攻击者,还有可能通过精心构造的数据,使得所有的数据经过散列函数之后,都散列到同一个槽里。如果我们使用的是基于链表的冲突解决方法,那这个时候,散列表就会退化为链表,查询的时间复杂度就从 O(1) 急剧退化为 O(n)。如果散列表中有 10 万个数据,退化后的散列表查询的效率就下降了 10 万倍。更直观点说,如果之前运行 100 次查询只需要 0.1 秒,那现在就需要 1 万秒。这样就有可能因为查询操作消耗大量 CPU 或者线程资源,导致系统无法响应其他请求,从而达到拒绝服务攻击(DoS)的目的。这也就是散列表碰撞攻击的基本原理。
如何设计一个可以应对各种异常情况的工业级散列表,来避免在散列冲突的情况下,散列表性能的急剧下降,并且能抵抗散列碰撞攻击?

  • 设计一个合适的散列函数;
  • 定义装载因子阈值,并且设计动态扩容策略(超过因子启动扩容,每次扩容都会扩容为原来的两倍大小,边增加到新内存块边从旧内存块复制到新内存块,先查新再查旧,直到全部复制完);
  • 选择合适的散列冲突解决方法(采用链表法,当链表长度太长(默认超过 8)时,链表就转换为红黑树。我们可以利用红黑树快速增删改查的特点,提高 HashMap 的性能。当红黑树结点个数少于 8 个的时候,又会将红黑树转化为链表。因为在数据量较小的情况下,红黑树要维护平衡,比起链表来,性能上的优势并不明显)。

4.电商交易系统中,订单数据一般都会很大,我们一般都分库分表来存储。假设我们分了 10 个库并存储在不同的机器上,在不引入复杂的分库分表中间件的情况下,我们希望开发一个小的功能,能够快速地查询金额最大的前 K 个订单(K 是输入参数,可能是 1、10、1000、10000,假设最大不会超过 10 万)。如果你是这个功能的设计开发负责人,你会如何设计一个比较详细的、可以落地执行的设计方案呢?
为了方便你设计,我先交代一些必要的背景,在设计过程中,如果有其他需要明确的背景,你可以自行假设。数据库中,订单表的金额字段上建有索引,我们可以通过 select order by limit 语句来获取数据库中的数据;我们的机器的可用内存有限,比如只有几百 M 剩余可用内存。希望你的设计尽量节省内存,不要发生 Out of Memory Error。

解决这个题目的基本思路是借助归并排序中的合并函数,从每个数据库中,通过 select order by limit 语句,各取局部金额最大的订单,把取出来的 10 个订单放到优先级队列中,取出最大值(也就是大顶堆堆顶数据),就是全局金额最大的订单。然后再从这个全局金额最大订单对应的数据库中,取出下一条订单(按照订单金额从大到小排列的),然后放到优先级队列中。一直重复上面的过程,直到找到金额前 K(K 是用户输入的)大订单。从算法的角度看起来,这个方案非常完美,但是,从实战的角度来说,这个方案并不高效,甚至很低效。因为我们忽略了,数据库读取数据的性能才是这个问题的性能瓶颈。所以,我们要尽量减少 SQL 请求,每次多取一些数据出来,那一次性取出多少才合适呢?这就比较灵活、比较有技巧了。一次性取太多,会导致数据量太大,SQL 执行很慢,还有可能触发超时,而且,我们题目中也说了,内存有限,太多的数据加载到内存中,还有可能导致 Out of Memory Error。所以,一次性不能取太多数据,也不能取太少数据,到底是多少,还要根据实际的硬件环境做 benchmark 测试去找最合适的。

5.我们知道,CPU 资源是有限的,任务的处理速度与线程个数并不是线性正相关。相反,过多的线程反而会导致 CPU 频繁切换,处理性能下降。所以,线程池的大小一般都是综合考虑要处理任务的特点和硬件环境来事先设置。当我们向固定大小的线程池中请求一个线程时,如果线程池中没有空闲资源了,这个时候线程池如何处理这个请求?是拒绝请求还是排队请求?各种处理策略又是怎么实现的呢?

这个问题的答案涉及队列这种数据结构。队列可以应用在任何有限资源池中,用于排队请求,比如数据库连接池等。实际上,对于大部分资源有限的场景,当没有空闲资源时,基本上都可以通过“队列”这种数据结构来实现请求排队。

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值