一.JAVA的默认编码方式是UNICODE是什么意思
编码问题存在两个方面:JVM之内和JVM之外。
1、Java文件编译后形成class
这里Java文件的编码可能有多种多样,但Java编译器会自动将这些编码按照Java文件的编码格式正确读取后产生class文件,这里的class文件编码是Unicode编码(具体说是UTF-16编码)。
因此,在Java代码中定义一个字符串:
String s=”汉字”;
不管在编译前java文件使用何种编码,在编译后成class后,他们都是一样的—-Unicode编码表示。
2、JVM中的编码
JVM加载class文件读取时候使用Unicode编码方式正确读取class文件,那么原来定义的String s=”汉字”;在内存中的表现形式是Unicode编码。
二.出现中文字符乱码的原因
我们在使用Android Studio编写Android项目的时候,会发现在运行的时候,手机上看到的中文字符是乱码,这是怎么回事呢?这是因为Android Studio的默认编码格式为GBK,而我们手机一般情况下都是用的是“UTF-8”,因此需要更改Android Studio的默认编码格式
“Settings”---“Editor”---“File Encodings”
然后在面板右侧中的“IDE Encoding”选择为“UTF-8”,将“Project Encoding”也设置为“UTF-8”
接下来在最下面的“Default encoding for properties files”选项中也将其更改为UTF-8,然后在后面的复选框上打上对勾
UTF-8编码是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码。对于英文字符较多的论坛则用UTF-8节省空间。
GB2312中1区到15区共682个字符或图形符号都是全角方式下的字符。即:
若byte[] bb=”hello”.getBytes(“gb2312”);(注意是全角方式下),bb字节数组的长度就会是10了。
因此:gb2312中的所有字符都是用二个字节表示(是因为:它的字符都是全角方式)。gb2312中不会对半角方式下的字符编码的(这是ASCII码的事情),因此:在getBytes(“gb2312”);转换时,半角的字符都是一个字节,全角的同样字符才是两个字节。,即对于英文字符来说,gbk下是占1个字节的,不是两个,而汉字是占用两个字节的。