面试题：有一个非常长的url，存储在数据库中，如何对其进行快速查找？

全球潮人

于 2024-05-01 23:25:13 发布

阅读量175

点赞数 4

分类专栏：面试题文章标签：数据库面试

本文链接：https://blog.csdn.net/qq_26432153/article/details/138382242

版权

7 篇文章 0 订阅

订阅专栏

文章讨论了在数据库中处理长URL的性能问题，提出了四种优化方案：存储哈希值、URL前缀、中缀和后缀。强调了根据URL特性选择合适的方法，以及可能遇到的碰撞问题及解决方案。

摘要由CSDN通过智能技术生成

问题来源

同事在面字节的时候遇到的。

数据库表中，有一个表，是以url为主键来区分数据，但是url很长，如果根据url进行查找，比较耗时，所以需要根据特殊的手段进行优化。

除了存储url字段，还需要新增一个字段，存储url的哈希值，查找时，根据url的哈希值进行查找。

可能存在的问题
会发生哈希碰撞，可以在查找出来之后，在内存中进行二次过滤，进行精确全url的匹配查找，使用url.equals(…)地方式进行精确匹配，过滤出自己想要的那一条或者几条数据。
如果url特别长，计算哈希值会消耗比较多的CPU资源。

方案
额外存储一个字段，url的前缀，存储url字段的前N位，具体可以根据url的特征来判断，比如可以存储前10位或者前20位，或者前30位。
这种方式会跟存储url的哈希值的方式一样，可能会发生碰撞，但是解决方案也是一样，在数据库中查找出几条数据之后，在内存中进行二次精确过滤。
可能存在的问题
有可能会出现url的前缀都很相似，从数据库中查找出的数据可能会很多，有可能会占用大量的内存。

方案
额外存储一个字段，url的中缀，存储url字段的N至M位，具体可以根据url的特征来判断，比如可以存储第10位至20位。
这种方式会跟存储url的哈希值的方式一样，可能会发生碰撞，但是解决方案也是一样，在数据库中查找出几条数据之后，在内存中进行二次精确过滤。
可能存在的问题
可能url的总长度只有15位，所以这种方案可以继续优化，优化为存url长度的三分之一长度开始，到四分之一的长度。
但是三分之一到四分之一可能会很长，所以可以继续优化为存储三分之一到四分之一，但是最长长度为10.