UTF-8将范围为U 0080 -U 07FF的值编码为形式为110xxxxx 10xxxxxx的两个字节(更多于 wiki).因此,只有xxxxx xxxxxx 11字节可用于值.
±是indexed as U+0105,其中0105是十六进制值(小数点是261).作为二进制,它可以表示为
01 05 (hex)
00000001 00000101 (bin)
xxx xxxxxxxx
001 00000101
所以UTF-8编码将添加110xxxxx 10xxxxxx掩码,这意味着它将结合起来
110xxxxx 10xxxxxx
00100 000101
进入(两个字节):
11000100 10000101
现在,InputStream将数据作为原始字节读取.所以当你调用inputStream.read();第一次得到11000100,其中十进制为196.调用inputStream.read();第二次将返回10000101,即十进制的133.
在Java 1.1中引入了读者器件,因此我们可以在代码中避免这种混乱.相反,我们可以指定Reader应该使用哪种编码(或者让它使用默认值)来获得正确编码的值,例如00000001 00000101(无掩码),它等于十六进制形式的0105和十进制形式的261.
简而言之
>如果要将数据作为文本读取,请使用读者(具有正确指定的编码)
>如果要将数据作为原始字节读取,请使用Streams.