[url]http://blog.csdn.net/whuchlee/archive/2009/04/03/4041944.aspx[/url]
[quote]
UTF,是Unicode Text Format的缩写,意为Unicode文本格式。根据Unicode的编码可以生成utf-8编码,转换规则如下:
(1)首先将Unicode的编码转换成二进制形式,这样一个字符对应一个16位的二进制数。
(2)如果Unicode的16位二进制编码的头9位都是0,则用一个字节表示该字符,这个字节的首位是“0”,剩下的7位与原编码中的后7位相同。例如“\u0034”(0000 0000 0011 0100),用“34” (0011 0100)表示(与原Unicode编码是相同的,只是去掉了原编码的首字节);
(3)如果Unicode的16位二进制编码的头5位都是0,则用两个字节表示该字符,首字节以“110”开头,该字节后面的5位与源编码中头5个零后面的5位相同;第二个字节以“10”开头,后面的六位则与源编码中剩下的6位相同。例如“\u025d”(0000 0010 0101 1101),转化后为“c99d”(1100 1001 1001 1101);
(4)如果Unicode的16位二进制编码不符合上述两个规则,则用三个字节表示该字符。第一个字节以“1110”开头,后四位与源编码的头4位相同;第二个字节以“10”开头,后六位与原编码接下来的6位相同;第三个字节也以“10”开头,后六位与原编码剩下的6位相同,这样原来16位的编码就转换成三个字节24位的编码了;例如“\u9da7”(1001 1101 1010 0111),转化为“e9b6a7”(1110 1001 1011 0110 1010 0111)。
[/quote]
[url]http://blog.csdn.net/sandyen/archive/2006/08/23/1108168.aspx[/url]
[quote]
UTF,是Unicode Text Format的缩写,意为Unicode文本格式。根据Unicode的编码可以生成utf-8编码,转换规则如下:
(1)首先将Unicode的编码转换成二进制形式,这样一个字符对应一个16位的二进制数。
(2)如果Unicode的16位二进制编码的头9位都是0,则用一个字节表示该字符,这个字节的首位是“0”,剩下的7位与原编码中的后7位相同。例如“\u0034”(0000 0000 0011 0100),用“34” (0011 0100)表示(与原Unicode编码是相同的,只是去掉了原编码的首字节);
(3)如果Unicode的16位二进制编码的头5位都是0,则用两个字节表示该字符,首字节以“110”开头,该字节后面的5位与源编码中头5个零后面的5位相同;第二个字节以“10”开头,后面的六位则与源编码中剩下的6位相同。例如“\u025d”(0000 0010 0101 1101),转化后为“c99d”(1100 1001 1001 1101);
(4)如果Unicode的16位二进制编码不符合上述两个规则,则用三个字节表示该字符。第一个字节以“1110”开头,后四位与源编码的头4位相同;第二个字节以“10”开头,后六位与原编码接下来的6位相同;第三个字节也以“10”开头,后六位与原编码剩下的6位相同,这样原来16位的编码就转换成三个字节24位的编码了;例如“\u9da7”(1001 1101 1010 0111),转化为“e9b6a7”(1110 1001 1011 0110 1010 0111)。
[/quote]
[url]http://blog.csdn.net/sandyen/archive/2006/08/23/1108168.aspx[/url]