总结
Stringstr = new String( "明".getBytes("GBK"), "GBK")
明的unicode编码计算为GBK编码的表示,在通过GBK编码计算为unicode,在Java中所有的字符都是Unicode
(我之前一直很晕,看到这个解释才恍然大悟)
在使用java的时候会涉及到编解码的内容。
首先,我们需要了解三个概念:1. java文件和java class文件的编码格式是utf-8。
2. java class 文件在jvm中运行的时候需要转码成utf-16的编码格式。
3. java中的字符串在内存中的编码格式是unicode。
我们先看在内存中的java对象的编码格式是怎么转化的
我们可以看到String str = “杭州”,在真实的内存中存储的是字节流:(e6 9d ad e5 b7 9e);是由utf-8的编码格式编码的。
现在我们要看看“杭州”两字在gbk中的编码格式中的字节是什么:ba bc d6 dd;具体的代码如下:
- String str = "杭州";
- int k = 0;
- char[] res = new char[str.getBytes("gbk").length * 2];
- for(byte bb : str.getBytes("gbk")){
- res[k++] = hexDigits[bb >>> 4 & 0xf];
- res[k++] = hexDigits[bb & 0xf];
- }
- String s = new String(res);
- System.out.println(s);
具体的示意图如下:
然后我们再把GBK的bytes流再转化成unicode编码的String对象:
- String utfStr = new String(str.getBytes("gbk"),"gbk");
最后在附上转化代码
package client;
import java.io.ByteArrayOutputStream;
public class test {
public static String toHexString(String s) {
String str = "";
for (int i = 0; i < s.length(); i++) {
int ch = (int) s.charAt(i);
String s4 = Integer.toHexString(ch);
str = str + s4;
}
return str;
}
// 转化十六进制编码为字符串
public static String toStringHex(String s) {
byte[] baKeyword = new byte[s.length() / 2];
for (int i = 0; i < baKeyword.length; i++) {
try {
baKeyword[i] = (byte) (0xff & Integer.parseInt(
s.substring(i * 2, i * 2 + 2), 16));
} catch (Exception e) {
e.printStackTrace();
}
}
try {
s = new String(baKeyword, "utf-8");// UTF-16le:Not
} catch (Exception e1) {
e1.printStackTrace();
}
return s;
}
public static void main(String[] args) {
System.out.println(encode("中"));
System.out.println(decode(encode("中")));
}
/*
* 16进制数字字符集
*/
private static String hexString = "0123456789ABCDEF";
/*
* 将字符串编码成16进制数字,适用于所有字符(包括中文)
*/
public static String encode(String str) {
// 根据默认编码获取字节数组
byte[] bytes = str.getBytes();
StringBuilder sb = new StringBuilder(bytes.length * 2);
// 将字节数组中每个字节拆解成2位16进制整数
for (int i = 0; i < bytes.length; i++) {
sb.append(hexString.charAt((bytes[i] & 0xf0) >> 4));
sb.append(hexString.charAt((bytes[i] & 0x0f) >> 0));
}
return sb.toString();
}
/*
* 将16进制数字解码成字符串,适用于所有字符(包括中文)
*/
public static String decode(String bytes) {
ByteArrayOutputStream baos = new ByteArrayOutputStream(
bytes.length() / 2);
// 将每2位16进制整数组装成一个字节
for (int i = 0; i < bytes.length(); i += 2)
baos.write((hexString.indexOf(bytes.charAt(i)) << 4 | hexString
.indexOf(bytes.charAt(i + 1))));
return new String(baos.toByteArray());
}
}