提升Java字符串编码解码性能的技巧

最新推荐文章于 2024-05-08 09:45:14 发布

JavaMonsterr

最新推荐文章于 2024-05-08 09:45:14 发布

阅读量188

点赞数

分类专栏： Java 程序员计算机文章标签： java p2p 蓝桥杯

本文链接：https://blog.csdn.net/JavaMonsterr/article/details/124900198

版权

本文探讨了Java中字符串编码解码的性能问题，包括常见的字符串编码格式、编码转换性能、不同JDK版本中String的实现变化以及快速构造和遍历字符串的技巧。特别提到了JDK 9之后引入的混合编码方式，以及通过MethodHandles.Lookup、JavaLangAccess和Unsafe提高构造字符串性能的方法。

摘要由CSDN通过智能技术生成

常见字符串编码

●

常见的字符串编码有：

LATIN1 只能保存ASCII字符，又称ISO-8859-1。

UTF-8 变长字节编码，一个字符需要使用1个、2个或者3个byte表示。由于中文通常需要3个字节表示，中文场景UTF-8编码通常需要更多的空间，替代的方案是GBK/GB2312/GB18030。

UTF-16 2个字节，一个字符需要使用2个byte表示，又称UCS-2 (2-byte Universal Character Set)。根据大小端的区分，UTF-16有两种形式，UTF-16BE和UTF-16LE，缺省UTF-16指UTF-16BE。Java语言中的char是UTF-16LE编码。

GB18030 变长字节编码，一个字符需要使用1个、2个或者3个byte表示。类似UTF8，中文只需要2个字符，表示中文更省字节大小，缺点是在国际上不通用。

为了计算方便，内存中字符串通常使用等宽字符，Java语言中char和.NET中的char都是使用UTF-16。早期Windows-NT只支持UTF-16。

编码转换性能

●

UTF-16和UTF-8之间转换比较复杂，通常性能较差。

如下是一个将UTF-16转换为UTF-8编码的实现，可以看出算法比较复杂，所以性能较差，这个操作也无法使用vector API做优化。

static int encodeUTF8(char[] utf16, int off, int len, byte[] dest, int dp) {
  
    int sl = off + len, last_offset = sl - 1;

    while (off < sl) {
  
        char c = utf16[off++];
        if (c < 0x80) {
  
            // Have at most seven bits
            dest[dp++] = (byte) c;
        } else if (c < 0x800) {
  
            // 2 dest, 11 bits
            dest[dp++] = (byte) (0xc0 | (c >> 6));
            dest[dp++] = (byte) (0x80 | (c & 0x3f));
        } else if (c >= '\uD800' && c < '\uE000') {
  
            int uc;
            if (c < '\uDC00') {
  
                if (off > last_offset) {
  
                    dest[dp++] = (byte) '?';
                    return dp;
                }


                char d = utf16[off];
                if (d >= '\uDC00' && d < '\uE000') {
  
                    uc = (c << 10) + d + 0xfca02400;
                } else {
  
                    throw new RuntimeException("encodeUTF8 error", new MalformedInputException(1));
                }
            } else {
  
                uc = c;
            }
            dest[dp++] = (byte) (0xf0 | ((uc >> 18)));
            dest[dp++] = (byte) (0x80 | ((uc >> 12) & 0x3f));
            dest[dp++] = (byte) (0x80 | ((uc >> 6) & 0x3f));
            dest[dp++] = (byte) (0x80 | (uc & 0x3f));
            off++; // 2 utf16
        } else {
  
            // 3 dest, 16 bits
            dest[dp++] = (byte) (0xe0 | ((c >> 12)));
            dest[dp++] = (byte) (0x80 | ((c >> 6) & 0x3f));
            dest[dp++] = (byte) (0x80 | (c & 0x3f));
        }
    }
    return dp;
}

相关代码地址[1] 。

由于Java中char是UTF-16LE编码，如果需要将char[]转换为UTF-16LE编码的byte[]时，可以使用sun.misc.Unsafe#copyMemory方法快速拷贝。比如：

static int writeUtf16LE(char[] chars, int off, int len, byte[] dest, final int dp) {
  
    UNSAFE.copyMemory(chars
            , CHAR_ARRAY_BASE_OFFSET + off * 2
            , dest
            , BYTE_ARRAY_BASE_OFFSET + dp
            , len * 2
    );
    dp += len * 2;
    return dp;
}

Java String的编码

●

不同版本的JDK String的实现不一样，从而导致有不同的性能表现。char是UTF-16编码，但String在JDK 9之后内部可以有LATIN1编码。

3.1. JDK 6之前的String实现

static class String {
  
    final char[] value;
    final int offset;
    final int count;
}

在Java 6之前，String.subString方法产生的String对象和原来String对象共用一个char[] value，这会导致subString方法返回的String的char[]被引用而无法被GC回收。于是使得很多库都会针对JDK 6及以下版本避免使用subString方法。

3.2. JDK 7/8的String实现

static class String {
  
    final char[] value;
}

JDK 7之后，字符串去掉了offset和count字段，value.length就是原来的count。这避免了subString引用大char[]的问题，优化也更容易，从而JDK7/8中的String操作性能比Java 6有较大提升。

3.3. JDK 9/10/11的实现

static class String {
  
    final byte code;
    final byte[] value;


    static final byte LATIN1 = 0;
    static final byte UTF16  = 1;
}

JDK 9之后，value类型从char[]变成byte[]，增加了一个字段code，如果字符全部是ASCII字符，使用value使用LATIN编码；如果存在任何一个非ASCII字符，则用UTF16编码。这种混合编码的方式，使得英文场景占更少的内存。缺点是导致Java 9的String API性能可能不如JDK 8，特别是传入char[]构造字符串，会被做压缩为latin编码的byte[]，有些场景会下降10%。

快速构造字符串的方法

●

为了实现字符串是不可变特性，构造字符串的时候，会有拷贝的过程，如果要提升构造字符串的开销，就要避免这样的拷贝。

比如如下是JDK8的String的一个构造函数的实现

public final class String {
  
    public String(char value[]) {
  
        this.value = Arrays.copyOf(value, value.length);
    }
}

在 JDK8 中，有一个构造函数是不做拷贝的，但这个方法

最低0.47元/天解锁文章

JavaMonsterr

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录