所谓“utf-8”只是UCS Transformation Format,只是UNICODE的一种表现形式,不等同于UNICODE,一般汉字在UNICODE中为两个(双)字节表示,而我们看到实际保存的文档确是三个字节表示一个汉字的,看看下表:
U-00000000 - U-0000007F: 0xxxxxxx
U-00000080 - U-000007FF: 110xxxxx 10xxxxxx
U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx
U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
UTF-8是一种变长度的表达方式,一般UNICODE为双字节(指UCS2)但为了与以前的ASCII码兼容,ASCII为一个字节,于是就想出了这种方法,在ASCII码的范围用一个字节表示,超出ASCII码的范围就用多字节表示,这就形成了我们上面看到的UTF-8的表示方法,这样的好处是当UNICODE文档中只有ASCII码时,保存的文档都为一个字节,所以就是普通的ASCII文档无异,读入的时候也是如此,所以能与以前的ASCII文档兼容。
至于大于ASCII码的,就会由上面的第一字节的前几位表示该unicode字符的长度,比如110xxxxxx前三位的二进制表示告诉我们这是个2BYTE的UNICODE字符;1110xxxx是个三位的UNICODE字符,依此类推,而首字节后面的字节都是以10开头,见上面这是为了与ASCII码开头的0区分告诉我们这是个多字节UTF-8编码的后续位。看上面的编码,我们将上面的x部分重新连起来组成的数值就是实际的UNICODE码值了(排除10组成的标志位)。
下面是个我写的从UTF-8转换到UNICODE真实值的程序,
#include <stdio.h>
#include <stdlib.h>
typedef unsigned short uint16;
typedef unsigned int uint32;
extern int __cdecl utf2unicode(const char* utf,int utfLen,uint16 **unicode)
{
int s = 0,d= 0;
int size_s;
int size_d;
uint16 *des;
uint32 temp;
uchar c;
if(utf == NULL) return -1;
size_s = utfLen;
size_d = size_s<<1;
des = (uint16*)malloc(size_d);
memset(des, 0, size_d);
while (s < size_s && d < size_d)
{
c = utf[s];
if ((c & 0x80) == 0) //1位
{
des[d++] += (uint16)utf[s++];
}
else if((c & 0xE0) == 0xC0) ///[2位]< 110x-xxxx 10xx-xxxx
{
temp = (uint32)((utf[s + 0] & 0x1F) << 6);
temp |= (uint32)(utf[s + 1] & 0x3F);
temp &=0xFFFF;
des[d++] = (uint16)temp;
s += 2;
}
else if((c & 0xF0) == 0xE0) ///[3位] < 1110-xxxx 10xx-xxxx 10xx-xxxx
{
temp =(((uint32)(utf[s + 0] & 0x0F)) << 12)/*
|(((uint32)(utf[s + 1] & 0x3F)) << 6)
|((uint32)(utf[s + 2] & 0x3F))*/;
temp |= (((uint32)(utf[s + 1] & 0x3F)) << 6);
temp |= ((uint32)(utf[s + 2] & 0x3F));
temp &=0xFFFF;
des[d++] = (uint16)temp;
s += 3;
}
else if((c & 0xF8) == 0xF0) ///[4位] < 1111-0xxx 10xx-xxxx 10xx-xxxx 10xx-xxxx
{
temp = (uint32)((utf[s + 0] & 0x07) << 18);
temp = (uint32)((utf[s + 1] & 0x3F) << 12);
temp |= (uint32)((utf[s + 2] & 0x3F) << 6);
temp |= (uint32)(utf[s + 3] & 0x3F);
temp &=0xFFFF;
des[d++] = (uint16)temp;
s += 4;
}
else if ((c & 0xFC) == 0xF8) // 五位
{
temp = (uint32)((utf[s + 0] & 0x03) << 24);
temp = (uint32)((utf[s + 1] & 0x3F) << 18);
temp = (uint32)((utf[s + 2] & 0x3F) << 12);
temp |= (uint32)((utf[s + 3] & 0x3F) << 6);
temp |= (uint32)(utf[s + 4] & 0x3F);
temp &=0xFFFF;
des[d++] = (uint16)temp;
s += 5;
}
else if ((c & 0xFE) == 0xFC) // 六位
{
temp = (uint32)((utf[s + 0] & 0x01) << 30);
temp |= (uint32)((utf[s + 1] & 0x3F) << 24);
temp |= (uint32)((utf[s + 2] & 0x3F) << 18);
temp |= (uint32)((utf[s + 3] & 0x3F) << 12);
temp |= (uint32)((utf[s + 4] & 0x3F) << 6);
temp |= (uint32)(utf[s + 5] & 0x3F);
temp &=0xFFFF;
des[d++] = (uint16)temp;
s += 6;
}
}
d <<=1;
*unicode = (uint16*)malloc(d);
memcpy(*unicode,des,d);
free(des);
return (d>>1);
}