1、java采用unicode编码方式,即java字符串永远都是用unicode编码的。
2、JVM平台默认字符集:utf-8(可通过CharSet.defaultCharSet()来获取)
3、在处理从外部资源读入的数据时,需要注意编码问题,但我们常常的写法却是:
- InputStream is = new FileInputStream("res/input2.data");
- InputStreamReader streamReader = new InputStreamReader(is);
- InputStreamReader streamReader = new InputStreamReader(is, "GB18030");
4、unicode的编码:U+hhhh,每个h是一个16进制的数字;每个字符,其Unicode编码是确定的,但unicode的实现方式确依不同的系统有所不同,unicode的实现方式称为Unicode转换格式(Unicode Transformation Format,UTF)。常见的转换格式有:utf-8、utf-16、utf-32、GB18030等。
国标码:GBK, 国标码+繁体:GB2312,台湾地区对中文字符集的编码:BIG5