虽然这种应用情况极少,甚至基本不会出现,但还是记录下,加深下影响吧,避免以后犯2都找不到原因。
参见:Why new String(bytes, enc).getBytes(enc) does not return the original byte array?
也就是当你无法确认在指定编码下所有字节能够被识别,请不要使用new String来编码,否则导致不仅该字节丢失,甚至接下来的一个字节也会伴随丢失。
例如
Utils.printBytes( new String(new byte[]{-35}).getBytes() );
这个输出将会是63,因为-35在当前默认编码中无法被识别,被转换成?,之后再获取字节变成63。
那么再加一个字节在后面试试
Utils.printBytes( new String(new byte[]{-35, 2}).getBytes() );
这个输出依然是63,应该是当发现-35无法识别后,去做双字节解析,依然无法解析,将这两个字节转换成一个字符?,然后就是63了。
当然也不是说第一个是无法解析,就一定丢两个字节信息,如
Utils.printBytes( new String(new byte[]{-35, -11}).getBytes() );
System.out.println(new String(new byte[]{-35, -2}));
这个时候刚好双字节能够被解析到,再编码回来就得到原字节信息。
当有这种非得将字节数组转成String的情况,可以优先考虑转成Hex String,用Integer.toHexString,或者Base64编码之类的。