UTF-8 与UniCode 编码转换

最新推荐文章于 2024-09-04 08:35:12 发布

kaiming2008

最新推荐文章于 2024-09-04 08:35:12 发布

阅读量1.3k

点赞数

分类专栏： Symbian C/C++语言学习 Windows Mobile Develop 文章标签： transformation 文档 c byte null

本文链接：https://blog.csdn.net/kaiming2008/article/details/5539505

版权

Symbian 同时被 3 个专栏收录

89 篇文章 0 订阅

订阅专栏

C/C++语言学习

19 篇文章 0 订阅

订阅专栏

Windows Mobile Develop

2 篇文章 0 订阅

订阅专栏

所谓“utf-8”只是UCS Transformation Format，只是UNICODE的一种表现形式，不等同于UNICODE，一般汉字在UNICODE中为两个（双）字节表示，而我们看到实际保存的文档确是三个字节表示一个汉字的，看看下表：

U-00000000 - U-0000007F: 0xxxxxxx
U-00000080 - U-000007FF: 110xxxxx 10xxxxxx
U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx
U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

UTF-8是一种变长度的表达方式，一般UNICODE为双字节（指UCS2）但为了与以前的ASCII码兼容，ASCII为一个字节，于是就想出了这种方法，在ASCII码的范围用一个字节表示，超出ASCII码的范围就用多字节表示，这就形成了我们上面看到的UTF-8的表示方法，这样的好处是当UNICODE文档中只有ASCII码时，保存的文档都为一个字节，所以就是普通的ASCII文档无异，读入的时候也是如此，所以能与以前的ASCII文档兼容。

至于大于ASCII码的，就会由上面的第一字节的前几位表示该unicode字符的长度，比如110xxxxxx前三位的二进制表示告诉我们这是个2BYTE的UNICODE字符；1110xxxx是个三位的UNICODE字符，依此类推，而首字节后面的字节都是以10开头，见上面这是为了与ASCII码开头的0区分告诉我们这是个多字节UTF-8编码的后续位。看上面的编码，我们将上面的x部分重新连起来组成的数值就是实际的UNICODE码值了（排除10组成的标志位）。

下面是个我写的从UTF-8转换到UNICODE真实值的程序，

#include <stdio.h>

#include <stdlib.h>

typedef unsigned short uint16;

typedef unsigned int uint32;

extern int __cdecl utf2unicode(const char* utf,int utfLen,uint16 **unicode)

{

int s = 0,d= 0;

int size_s;

int size_d;

uint16 *des;

uint32 temp;