微博java实现原理_【转】URL短地址压缩算法 微博短地址原理解析 (Java实现)...

最近,项目中需要用到短网址(ShortUrl)的算法,于是在网上搜索一番,发现有C#的算法,有.Net的算法,有PHP的算法,就是没有找到Java版的短网址(ShortUrl)的算法,很是郁闷。同时还发现有不少网友在发帖求助,怎么实现Java版的短网址(ShortUrl)的算法。干脆一不做,二不休,参考了一下网上比较流行的PHP版短网址(ShortUrl)算法:

再根据自己的理解,用Java实现了该短网址(ShortUrl)的算法。(\(^o^)/YES!我还真厉害!)

先来废话一下,是在别人的帖子上看到的,主要是让大家了解一下短网址(ShortUrl)。

时下,短网址应用已经在全国各大微博上开始流行了起来。例如QQ微博的url.cn,新郎的t.cn等。

我们在新浪微博上发布网址的时候,微博会自动判别网址,并将其转换,例如:http://t.cn/hrYnr0。为什么要这样做的,原因我想有这样几点:

1、微博限制字数为140字一条,那么如果我们需要发一些连接上去,但是这个连接非常的长,以至于将近要占用我们内容的一半篇幅,这肯定是不能被允许的,所以短网址应运而生了。

2、短网址可以在我们项目里可以很好的对开放级URL进行管理。有一部分网址可以会涵盖性、暴力、广告等信息,这样我们可以通过用户的举报,完全管理这个连接将不出现在我们的应用中,应为同样的URL通过加密算法之后,得到的地址是一样的。

3、我们可以对一系列的网址进行流量,点击等统计,挖掘出大多数用户的关注点,这样有利于我们对项目的后续工作更好的作出决策。

其实以上三点纯属个人观点,因为在我接下来的部分项目中会应用到,所以就了解了一下,下面先来看看短网址映射算法的理论(网上找到的资料):

① 将长网址用md5算法生成32位签名串,分为4段,,每段8个字符;

② 对这4段循环处理,取每段的8个字符, 将他看成16进制字符串与0x3fffffff(30位1)的位与操作,超过30位的忽略处理;

③ 将每段得到的这30位又分成6段,每5位的数字作为字母表的索引取得特定字符,依次进行获得6位字符串;

④ 这样一个md5字符串可以获得4个6位串,取里面的任意一个就可作为这个长url的短url地址。

很简单的理论,我们并不一定说得到的URL是唯一的,但是我们能够取出4组URL,这样几乎不会出现太大的重复。

首先,请大家了解在Java中如何用MD5来加密字符串得到32位的加密后的字符串,下面是我已经封装好的Java MD5算法:

private final static String[] hexDigits ={"0", "1", "2", "3", "4", "5", "6", "7","8", "9", "a", "b", "c", "d", "e", "f"};public static String byteArrayToHexString(byte[] b){

StringBuffer resultSb= newStringBuffer();for (int i = 0; i < b.length; i++){

resultSb.append(byteToHexString(b[i]));

}returnresultSb.toString();

}private static String byteToHexString(byteb){int n =b;if (n < 0)

n= 256 +n;int d1 = n / 16;int d2 = n % 16;return hexDigits[d1] +hexDigits[d2];

}public staticString MD5Encode(String origin){

String resultString= null;try{

resultString=newString(origin);

MessageDigest md= MessageDigest.getInstance("MD5");

resultString.trim();

resultString=byteArrayToHexString(md.digest(resultString.getBytes("UTF-8")));

}catch(Exception ex){}returnresultString;

}public static voidmain(String[] args)

{

String data= "189022881112011111118:09sz0000123456789987654321";

System.out.println(MD5Encode(data));

}

public classShortUrl {public static voidmain(String[] args) {

String url= "http://www.sunchis.com";for(String string : ShortText(url)) {

print(string);

}

}public staticString[] ShortText(String string){

String key= "XuLiang"; //自定义生成MD5加密字符串前的混合KEY

String[] chars = new String[]{ //要使用生成URL的字符

"a","b","c","d","e","f","g","h","i","j","k","l","m","n","o","p","q","r","s","t","u","v","w","x","y","z","0","1","2","3","4","5","6","7","8","9","A","B","C","D","E","F","G","H","I","J","K","L","M","N","O","P","Q","R","S","T","U","V","W","X","Y","Z"};

String hex= MD5Encode(key +string);int hexLen =hex.length();int subHexLen = hexLen / 8;

String[] ShortStr= new String[4];for (int i = 0; i < subHexLen; i++) {

String outChars= "";int j = i + 1;

String subHex= hex.substring(i * 8, j * 8);long idx = Long.valueOf("3FFFFFFF", 16) & Long.valueOf(subHex, 16);for (int k = 0; k < 6; k++) {int index = (int) (Long.valueOf("0000003D", 16) &idx);

outChars+=chars[index];

idx= idx >> 5;

}

ShortStr[i]=outChars;

}returnShortStr;

}private static voidprint(Object messagr){

System.out.println(messagr);

}

}

下面来看看程序部分:现在可以直接使用ShortText(url)方法,可以等到下面四组值:

ShortText("http://www.sunchis.com")[0]; //得到值:Jzyqma

ShortText("http://www.sunchis.com")[1]; //得到值:QBrMzm

ShortText("http://www.sunchis.com")[2]; //得到值:bQreM3

ShortText("http://www.sunchis.com")[3]; //得到值:VNBRna

选取结果中四个值的任何一个值即可作为URL对应生成的短网址了。

一些评论:

原网址和短地址一一对应的存储在数据库中

在新浪发表一篇微博,它自己进入短网址转换模块,转换的时候就生成了一串短网址,并存入了数据库,当你在新浪微博里点击http://t.cn/h5mwx 这个网址,那么说t.cn就会自动去数据库查询对应的长网址,并让你的浏览器顺利抵达终点,所以短网址一般都会跟一个短域名,否则谁也没办法解析...比如腾讯的短网址,它的短域名可能就不是t.cn了吧...

MD5不可逆

Q:我很奇怪为什么要使用MD5来做,最简单直接的思路:建一个简单的数据表,第1列是id,自增长,第2列是原URL。这种方式也很好,完全可以搞定。

请教各位,使用MD5的方法在哪些方面要优于我这个方法?

A:用这种方法很容易让竞争对手把URL库给遍历了去,但是假如我们只考虑效率,不考虑其他。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值