Java编码学习

<span style="font-family: 'Microsoft YaHei'; background-color: rgb(255, 255, 255);"><span style="font-size:14px;">参考文章:http://www.ibm.com/developerworks/cn/java/j-lo-chinesecoding/</span></span>

前提:

  • Java使用Unicode字符集编码,即utf-16。
  • Java中一个char是两个字节
  • 编码:从字符转换为字节,从char[ ]到byte[ ]
  • 解码:从字节转换为字符,从byte[ ]到char[ ]
  • Java中进行编码和解码时使用的是Charset类,该类中CharsetEncoder的Encode方法实现编码,decode实现解码
  • Java中需要编码解码的情况:
    • I/O操作
    • String到内存
    • Java web(有待进一步学习)
String到内存——重点:getBytes( )方法
import java.io.IOException;
import java.io.StringReader;

public class EncodeCompare {

	public static void main(String[] args) throws IOException {
		char a = '中';
		System.out.println("this is from char:");
		System.out.println((int)a);
		System.out.println(Integer.toHexString(a));
		
		StringReader strReader = new StringReader("中");
		int b = strReader.read();
		System.out.println("this is from reader:");
		System.out.println(b);
		System.out.println(Integer.toHexString(b));
		
		String c = "中";
		byte[] result = c.getBytes("gb2312");
		System.out.println("this is from string:");
		for(int i = 0; i < result.length; i ++)
			System.out.println(result[i]);
		
	}

}
实际输出:
this is from char:
20013
4e2d
this is from reader:
20013
4e2d
this is from string:
-42
-48
最后字符串获取字节数组的过程在内存中经历了哪几个阶段呢?
  1. 在内存中加载程序:此阶段,字符按照Java的编码方式,在内存中表示为0x4e2d,占用了两个字节
  2. 编码转换:查找gb2312里,char到byte的码表,得到与0x4e2d对应的字节,结果为0xd6d0
  3. 将得到的结果赋给byte数组
程序的第一段,验证了char字符是按照utf-16的编码进行编码,因为对字符串按“utf-16”获得字节数组,得到的结果是0x4e2d;
程序的第二段,是为了检验,字符流中的read方法返回的int值是怎么得来的,通过对比结果可以得出,int值是该字符按utf-16得到的字节的十进制值。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值