算法高级（38）-短网址(short URL)系统如何实现？

最新推荐文章于 2021-08-21 20:05:17 发布

十步杀一人_千里不留行

最新推荐文章于 2021-08-21 20:05:17 发布

阅读量3k

点赞数 1

分类专栏：算法高级文章标签：短网址算法

本文链接：https://blog.csdn.net/m0_37609579/article/details/101273790

版权

算法高级专栏收录该内容

51 篇文章

订阅专栏

一、什么是短网址？

我们的URL地址常常会因为需要携带各式各样的参数，或者随着业务增长，变得越来越长。对于用户而言，过长的链接体验必然是不好的。这时候短网址就应用而生了，也称为短链接。

短网址，就是把普通网址，就是将长的URL网址，通过程序计算等方式，转换成比较短的网址。比如：http://t.cn/RlB2PdD 这种，在短信、微博、推特这种限制字数的应用里，好处不言而喻。短、字符少、美观、便于发布、传播。

早期短链接广泛应用于图片上传网站，通过缩短网址URL链接字数，达到减少代码字符串的目的。更便于使用者引用网址，写入代码中，节省字符数空间。常见于网店图片分类的使用，因有字符限制，运用短链接，达到外链图片的目的，自微博盛行以来，在微博字数有限的特色下，短链接也盛行于微博网站，以节省字数，给博主发布更多文字的空间。

短网址主要有几个作用：

缩短原链接长度，便于营销推广
数据统计，在重定向的过程中进行PV、UV等数据统计
屏蔽原链接域名

长链接示例：https://mp.weixin.qq.com/s?__biz=MjM5NDY4NTE3OQ==&mid=2651269335&idx=1&sn=e59da82933e14847e59805bb576ea67d&chksm=bd7781438a0008553739cb38cbfd3fecc0ef1e6f531246d94dffda2cb955ddd1c174282b5ae2&mpshare=1&scene=1&srcid=&sharer_sharetime=1569315641509&sharer_shareid=7ff493d8e10e2437e9ad26c2640bbd82&key=5e4f3af4a46b639999714044064b8775d4864dc1a3bf6c91bef294023de61b42d655790ce363a528ef40d0fb4c8681d130a496942e47c424a02c229fb1dbdb0e995c994251fc21c9dc39bc92396b1357&ascene=1&uin=MjUwMjg1NTU%3D&devicetype=Windows+10&version=62060834&lang=zh_CN&pass_ticket=XQAvYTEp9FZSAZWm3M5Ac4SSkUIXtVIZgxIndU7lM38%3D

百度短网址 http://dwz.cn/
谷歌短网址服务 https://goo.gl/ （需科学上网）号称是最快的 ?

二、短网址的实现原理解析

当我们在浏览器里输入 http://t.cn/RlB2PdD 时

DNS首先解析获得 http://t.cn 的 IP 地址
当 DNS 获得 IP 地址以后（比如：74.125.225.72），会向这个地址发送 HTTP GET 请求，查询短码 RlB2PdD
http://t.cn 服务器会通过短码 RlB2PdD 获取对应的长 URL
请求通过 HTTP 301 转到对应的长 URL https://m.helijia.com 。

这里有个小的知识点，为什么要用 302 跳转而不是 301 呢？

301是永久重定向，302是临时重定向。短地址一经生成就不会变化，所以用301是符合http语义的。但是如果用了301， Google，百度等搜索引擎，搜索的时候会直接展示真实地址，那我们就无法统计到短地址被点击的次数了，也无法收集用户的Cookie, User Agent 等信息，这些信息可以用来做很多有意思的大数据分析，也是短网址服务商的主要盈利来源。

所以选择302虽然会增加服务器压力，但是我想是一个更好的选择。

通过上面的分析，会发现我们的核心问题就是如何用长网址来生成对应的短网址。

三、短网址的长度设计

我们的需求是生成短网址，当然是尽可能地短，那到底什么样的长度合适呢？

短码一般是由 [a - z, A - Z, 0 - 9] 这62 个字母或数字组成，我们可以把短网址的字符串理解为一个62进制的数（想想16进制你就明白了），微博的短网址是7位，那么最大能表示{62}^7=3521614606208个网址，这是多少呢？可以说比现在互联网所有的链接都都多了好多数量级，这样就避免了短网址重复的问题。

现代的web服务器（例如Apache, Nginx）大部分都区分URL里的大小写，所以用大小写字母来区分不同的URL是没问题的。因此，正确答案：长度不超过7的字符串，由大小写字母加数字共62个字母组成。

四、短网址的生成算法

现在我们设定了短网址是一个长度为7的字符串，如何计算得到这个短网址呢？

两种算法：

自增序列算法：设置 id 自增，一个 10进制 id 对应一个 62进制的数值，1对1，也就不会出现重复的情况。这个利用的就是低进制转化为高进制时，字符数会减少的特性。
哈希算法：先hash得到一个64位整数，将它转化为62进制整数，截取低7位即可。

但是哈希算法会有冲突，所以我们应该使用第一种方式来实现。10进制转成62进制的具体实现：

function string10to62(number) {
    const chars = '0123456789abcdefghigklmnopqrstuvwxyzABCDEFGHIGKLMNOPQRSTUVWXYZ';
    const charsArr = chars.split('');
    const radix = chars.length;
    let qutient = +number;
    let arr = [];
    do{
        let mod = qutient % radix;
        qutient = (qutient - mod) / radix;
        arr.unshift(charsArr[mod]);
    }while(qutient);
    return arr.join('');
}

但是短码 id 是从一位长度开始递增，短码的长度不固定，不过可以用 id 从指定的数字开始递增的方式来处理，确保所有的短码长度都一致。同时，生成的短码是有序的，可能会有安全的问题，可以将生成的短码id，结合长网址等其他关键字，进行md5运算生成最后的短码。