Unicode码表:
unicode (又称统一码、万国码、单一码)是计算机科学领域里的一项业界字符编码标准。
容纳世界上大多数国家的所有常见文字和符号。
由于Unicode会先通过UTF-8,UTF-16,以及UTF-32的编码成二进制后再存储到计算机,其中最为常见的就是UTF-8。
注意:
Unicode是万国码,以UTF-8编码后一个中文一般以三个字节的形式存储。
UTF-8也要兼容ASCII编码表。
技术人员都应该使用UTF-8的字符集编码。
编码前和编码后的字符集需要一致,否则会出现中文乱码。
编码和解码
package d3_charset;
import java.io.UnsupportedEncodingException;
import java.nio.charset.StandardCharsets;
import java.util.Arrays;
public class Test {
public static void main(String[] args) throws Exception {
//1.编码:把文字转换成字节(指定的编码)
String name = "hhh,好厉害哟!";
byte[] bytes1 = name.getBytes(StandardCharsets.UTF_8);//以当前代码默认字符集进行编码(UTF-8)
System.out.println(bytes1.length);
System.out.println(Arrays.toString(bytes1));
byte[] bytes2 = name.getBytes("GBK");//指定编码
System.out.println(bytes2.length);
System.out.println(Arrays.toString(bytes2));
//2.解码:把字节转换成对应的中文形式(编码前和编码后的字符集必须一致,否则乱码)
String rs1 = new String(bytes1);//默认的UTF-8
System.out.println(rs1);
String rs2 = new String(bytes2,"GBK");//指定GBK解码
System.out.println(rs2);
}
}