在notepad++中用utf8格式保存“你好”两个汉字,文件名为a.txt.
在eclipse中设置编码格式为gbk.在eclipse中用FileReader读取这个文件。FileReader的read方法返回的为int型,用char做强制转换。结果出现乱码,第一个乱码为“浣”。
由于a.txt中的编码格式为utf8,故在硬盘中"你"保存为1110 0100,1011 1101,1010 0000.由于eclipse的格式为gbk,每个gbk字符占两个字节。故以gbk格式读取时,1110 0100,1011 1101(0xE4BD)被解读为gbk格式的“浣”。又因为java的字符串在内存中以unicode表示,故做了一次编码转换。这个"浣"读入内存后采用unicode表示,具体表示为0x6D63.
最后FileReader的read方法返回的int型数值是"浣"unicode编码也就是0x6D63的十进制形式。用char强转之后依然是“浣”。
用char进行强转时,总是会试图用unicode格式去解码。例如,不论eclipse的编码格式是什么,(char)28003永远输出的是"浣",因为“浣”的unicode编码为0x6D63,而28003转换为十六进制也是0x6D63。