Java中使用的是Unicode编码,所以,字符串都是以Unicode码的方式存储的,而代码的识别也是以Unicode解码方式,所以有时利用输入法输入时可能会产生编译时系统不能解码的错误(比如全角的标点符号)。
Java中的String类提供通过字节数组创建字符串的构造器,这里字节数组内的数据被看作字符的码值。但是同一个码值用不同的解码方式解码会产生不同的结果。所以在利用字节数组创建字符串时,应该指定所采用的字符集(即编码解码方式),常用的字符集有以下的集中方式:
UTF-8:UCS转换格式。用单字节、双字节或三字节编码字符。
UnicodeBig:16位Unicode编码,高字节在前。
UnicodeLittle:16位Unicode编码,低字节在前。
GBK:简化汉字。西文字符用单字节表示,汉字用双字节表示。
String类利用字节数组创建字符串的构造方法如下;
String(byte[] bytes,String enc);采用指定的enc字符编码方式将字节数组转化成字符串对象。
String(byte[] bytes);采用操作系统默认的字符集将字节数组转换成字符串对象。
Java的System包中提供了提取系统默认字符集的方法:
System.getProperty("file.encoding");该方法返回一个字符串对象表明系统的字符集,比如我的为“GBK”。