背景:数据库的前期设计,主键用的是uuid,但这个是大数据量的应用。经过n久的折腾,数据大于1亿条了。返回去看表,发现,表的很多字段是varchar2的,但是长度不超过20字符。占据大部分空间的居然是uuid。于是萌生改造uuid的想法。
过程:经过一番搜索,一般就是缩短至22位的uuid了。
这位仁兄是由短域名想到uuid用64进制改造http://www.iteye.com/topic/1028058,其方法是把uuid生成的字符串去掉“-”,在补一个“0”,得到33位的16进制数,再用22个64进制数表示。
而这位仁兄呢,想到的是用base64的方法缩短uuid,http://cengjingdemimang.iteye.com/blog/1022149。看了代码,主要是利用uuid生成的mostSigBits、leastSigBits来做位移,再通过base64的算法将16字节的2个long类型转换成字符。经过本人一番搜索,在网上找到这位作者可能直接使用的base64的代码http://blog.csdn.net/lastsweetop/article/details/5314640(^_^就是不用做什么封装直接用的代码)。
接着呢,就是把这两位仁兄的22位uuid生成速度做一番比较。显然,第二位的速度快一些,因为少了字符串操作。于是采用第二位仁兄的方法。但是呢,看着看着我就糊涂了。因为这里有段奇怪的代码。
- for (int i = 8; i < 16; i++) {
- buffer[i] = (byte) (lsb >>> 8 * (7 - i));
- }
右移负数。经过我一番尝试,得出一个比较随意的结论:右移负数可以得到数字。
- int a = 3*2^28;
- System.out.println(a>>>28);//输出3
- System.out.println(a>>>-4);//输出3
- //28-(-4)=32
- int b = 3*2^4;
- System.out.println(b>>>4);//输出3
- System.out.println(b>>>-28);//输出3
- //这个是变相的左移?
之后,我研究了第二位仁兄的方法,结合base64,大概是这样的,把mostSigBits、leastSigBits转成16字节的字节数组,然后采用3个字节分为4个字节,再对应64进制的字符。采用自己的写法,得到以下代码。
- //import java.util.Date;
- import java.util.UUID;
- public class UUID22 {
- /**
- * 采用URL Base64字符,即把“+/”换成“-_”
- */
- static private char[] alphabet = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789-_=".toCharArray();
- /**
- * Base64 编码
- * @param data
- * @return
- */
- private char[] encode(byte[] data) {
- char[] out = new char[((data.length + 2) / 3) * 4];
- boolean quad, trip;
- for (int i = 0, index = 0; i < data.length; i += 3, index += 4) {
- quad = trip = false;
- int val = (0xFF & (int) data[i]);
- val <<= 8;
- if ((i + 1) < data.length) {
- val |= (0xFF & (int) data[i + 1]);
- trip = true;
- }
- val <<= 8;
- if ((i + 2) < data.length) {
- val |= (0xFF & (int) data[i + 2]);
- quad = true;
- }
- out[index + 3] = alphabet[(quad ? (val & 0x3F) : 64)];
- val >>= 6;
- out[index + 2] = alphabet[(trip ? (val & 0x3F) : 64)];
- val >>= 6;
- out[index + 1] = alphabet[val & 0x3F];
- val >>= 6;
- out[index + 0] = alphabet[val & 0x3F];
- }
- return out;
- }
- /**
- * 转成字节
- * @return
- */
- // private byte[] toBytes(String u) {
- // UUID uuid = UUID.fromString(u);
- private byte[] toBytes() {
- UUID uuid = UUID.randomUUID();
- long msb = uuid.getMostSignificantBits();
- long lsb = uuid.getLeastSignificantBits();
- byte[] buffer = new byte[16];
- for (int i = 0; i < 8; i++) {
- buffer[i] = (byte) ((msb >>> 8 * (7 - i)) & 0xFF);
- buffer[i + 8] = (byte) ((lsb >>> 8 * (7 - i)) & 0xFF);
- }
- return buffer;
- }
- // public String getUUID(String u) {
- // char[] res = encode(toBytes(u));
- public String getUUID() {
- char[] res = encode(toBytes());
- System.out.println(new String(res));
- return new String(res, 0, res.length - 2);
- }
- public static void main(String[] args) {
- System.out.println(getUUID22());
- // System.out.println(getUUID("c19b9de1-f33a-494b-afbe-f06817218d64"));
- // System.out.println(getUUID22("c19b9de1-f33a-494b-afbe-f06817218d64"));
- // Date d1 = new Date();
- // for(int i = 0; i < 1000000; i++) {
- // UUID.randomUUID().toString();
- // getUUID22();
- // }
- // Date d2 = new Date();
- // System.out.print(d2.getTime() - d1.getTime());
- }
- /**
- * 将随机UUID转换成22位字符串
- * @return
- */
- // public static String getUUID22(String u) {
- // UUID uuid = UUID.fromString(u);
- public static String getUUID22() {
- UUID uuid = UUID.randomUUID();
- // System.out.println(uuid.toString());
- long msb = uuid.getMostSignificantBits();
- long lsb = uuid.getLeastSignificantBits();
- char[] out = new char[24];
- int tmp = 0, idx = 0;
- // 基础写法
- /*tmp = (int) ((msb >>> 40) & 0xffffff);
- out[idx + 3] = alphabet[tmp & 0x3f];
- tmp >>= 6;
- out[idx + 2] = alphabet[tmp & 0x3f];
- tmp >>= 6;
- out[idx + 1] = alphabet[tmp & 0x3f];
- tmp >>= 6;
- out[idx] = alphabet[tmp & 0x3f];
- idx += 4;
- tmp = (int) ((msb >>> 16) & 0xffffff);
- out[idx + 3] = alphabet[tmp & 0x3f];
- tmp >>= 6;
- out[idx + 2] = alphabet[tmp & 0x3f];
- tmp >>= 6;
- out[idx + 1] = alphabet[tmp & 0x3f];
- tmp >>= 6;
- out[idx] = alphabet[tmp & 0x3f];
- idx += 4;
- tmp = (int) (((msb & 0xffff) << 8) | (lsb >>> 56 & 0xff));
- out[idx + 3] = alphabet[tmp & 0x3f];
- tmp >>= 6;
- out[idx + 2] = alphabet[tmp & 0x3f];
- tmp >>= 6;
- out[idx + 1] = alphabet[tmp & 0x3f];
- tmp >>= 6;
- out[idx] = alphabet[tmp & 0x3f];
- idx += 4;
- tmp = (int) ((lsb >>> 32) & 0xffffff);
- out[idx + 3] = alphabet[tmp & 0x3f];
- tmp >>= 6;
- out[idx + 2] = alphabet[tmp & 0x3f];
- tmp >>= 6;
- out[idx + 1] = alphabet[tmp & 0x3f];
- tmp >>= 6;
- out[idx] = alphabet[tmp & 0x3f];
- idx += 4;
- tmp = (int) ((lsb >>> 8) & 0xffffff);
- out[idx + 3] = alphabet[tmp & 0x3f];
- tmp >>= 6;
- out[idx + 2] = alphabet[tmp & 0x3f];
- tmp >>= 6;
- out[idx + 1] = alphabet[tmp & 0x3f];
- tmp >>= 6;
- out[idx] = alphabet[tmp & 0x3f];
- idx += 4;
- tmp = (int) (lsb & 0xff);
- out[idx + 3] = alphabet[64];
- out[idx + 2] = alphabet[64];
- tmp <<= 4;
- out[idx + 1] = alphabet[tmp & 0x3f];
- tmp >>= 6;
- out[idx] = alphabet[tmp & 0x3f];
- idx += 4;*/
- // 循环写法
- int bit = 0, bt1 = 8, bt2 = 8;
- int mask = 0x00, offsetm = 0, offsetl = 0;
- for(; bit < 16; bit += 3, idx += 4) {
- offsetm = 64 - (bit + 3) * 8;
- offsetl = 0;
- tmp = 0;
- if(bt1 > 3) {
- mask = (1 << 8 * 3) - 1;
- } else if(bt1 >= 0) {
- mask = (1 << 8 * bt1) - 1;
- bt2 -= 3 - bt1;
- } else {
- mask = (1 << 8 * ((bt2 > 3) ? 3 : bt2)) - 1;
- bt2 -= 3;
- }
- if(bt1 > 0) {
- bt1 -= 3;
- tmp = (int) ((offsetm < 0) ? msb : (msb >>> offsetm) & mask);
- if(bt1 < 0) {
- tmp <<= Math.abs(offsetm);
- mask = (1 << 8 * Math.abs(bt1)) - 1;
- }
- }
- if(offsetm < 0) {
- offsetl = 64 + offsetm;
- tmp |= ((offsetl < 0) ? lsb : (lsb >>> offsetl)) & mask;
- }
- if(bit == 15) {
- out[idx + 3] = alphabet[64];
- out[idx + 2] = alphabet[64];
- tmp <<= 4;
- } else {
- out[idx + 3] = alphabet[tmp & 0x3f];
- tmp >>= 6;
- out[idx + 2] = alphabet[tmp & 0x3f];
- tmp >>= 6;
- }
- out[idx + 1] = alphabet[tmp & 0x3f];
- tmp >>= 6;
- out[idx] = alphabet[tmp & 0x3f];
- }
- return new String(out, 0, 22);
- }
- }
其中,//注释的代码是测试代码和部分注释。/**/注释的是最简单的写法,等价于下面的for循环写法。只是自己看着不“优雅”改了。
经过测试,改造完的getUUID22方法生成字符串的速度,比原生的UUID.randomUUID().toString()方法快,在100W次的测试中,输出是时间大概是原生1850+ms:改造1040+ms的速度。
究其原因,应该是toString()方法拼接字符串"-"导致速度慢了。拼接字符串用+一般比较没效率。
结果:自己改造代码的过程比较纠结,写for循环总是卡死在某一步骤,最后把自己“变傻”,模仿计算机思维一步一步来就写出来了。就是不知道有没有更好的写法 。如有更好的写法请指教。