字符集Unicode和UFT-8

20 篇文章 0 订阅

(转)http://blog.csdn.net/roofwei/article/details/4579617

注意UTF-8中汉字的存储是3个字节,英文是一个字节

般在Windows平台上,提到Unicode,那就是指UTF16,采用的是两个字节表示,不过UTF-8是跨平台常采用的码制转换的中间码。还要注意网页的标准是UTF-8,所以需要将UTF-16window中的unicode码)转换成UTF-8才可采用Base64转换

 (0xE0 | ((c >> 12) & 0x0F))(0x80 | ((c >> 6)& 0x3F))(0x80| ((c >> 0) & 0x3F));
这三个是将汉字转存为三个字符,其原理是UTF-8字符存储格式,其格式如下:

U-00000000 - U-0000007F:0xxxxxxx
U-00000080 - U-000007FF: 110xxxxx 10xxxxxx
U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx
U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
其中第三行,为汉字所在行

 

全文结构

1. 字符编码笔记:ASCIIUnicodeUTF-8

2. UnicodeUTF-8之间的转换详解

3. 字符串UTF-8ASCII相互转换

**************************************************************************************

URL:http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html

**************************************************************************************

字符编码笔记:ASCIIUnicodeUTF-8

1. ASCII

我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串。每一个二进制位(bit)有01两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从000000011111111

上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定。这被称为ASCII码,一直沿用至今。

ASCII码一共规定了128个字符的编码,比如空格“SPACE”32(二进制00100000),大写的字母A65(二进制01000001)。这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的1位统一规定为0

2、非ASCII编码

英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。比如,在法语中,字母上方有注音符号,它就无法用ASCII码表示。于是,一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。比如,法语中的é的编码为130(二进制10000010)。这样一来,这些欧洲国家使用的编码体系,可以表示最多256个符号。

但是,这里又出现了新的问题。不同的国家有不同的字母,因此,哪怕它们都使用256个符号的编码方式,代表的字母却不一样。比如,130在法语编码中代表了é,在希伯来语编码中却代表了字母Gimel (ג),在俄语编码中又会代表另一个符号。但是不管怎样,所有这些编码方式中,0—127表示的符号是一样的,不一样的只是128—255的这一段。

至于亚洲国家的文字,使用的符号就更多了,汉字就多达10万左右。一个字节只能表示256种符号,肯定是不够的,就必须使用多个字节表达一个符号。比如,简体中文常见的编码方式是GB2312,使用两个字节表示一个汉字,所以理论上最多可以表示256x256=65536个符号。

中文编码的问题需要专文讨论,这篇笔记不涉及。这里只指出,虽然都是用多个字节表示一个符号,但是GB类的汉字编码与后文的UnicodeUTF-8是毫无关系的。

3.Unicode

正如上一节所说,世界上存在着多种编码方式,同一个二进制数字可以被解释成不同的符号。因此,要想打开一个文本文件,就必须知道它的编码方式,否则用错误的编码方式解读,就会出现乱码。为什么电子邮件常常出现乱码?就是因为发信人和收信人使用的编码方式不一样。

可以想象,如果有一种编码,将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码,那么乱码问题就会消失。这就是Unicode,就像它的名字都表示的,这是一种所有符号的编码。

Unicode当然是一个很大的集合,现在的规模可以容纳100多万个符号。每个符号的编码都不一样,比如,U+0639表示阿拉伯字母AinU+0041表示英语的大写字母AU+4E25表示汉字。具体的符号对应表,可以查询unicode.org,或者专门的汉字对应表

4. Unicode的问题

需要注意的是,Unicode只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。

比如,汉字unicode是十六进制数4E25,转换成二进制数足足有15位(100111000100101),也就是说这个符号的表示至少需要2个字节。表示其他更大的符号,可能需要3个字节或者4个字节,甚至更多。

这里就有两个严重的问题,第一个问题是,如何才能区别unicodeascii?计算机怎么知道三个字节表示一个符号,而不是分别表示三个符号呢?第二个问题是,我们已经知道,英文字母只用一个字节表示就够了,如果unicode统一规定,每个符号用三个或四个字节表示,那么每个英文字母前都必然有二到三个字节是0,这对于存储来说是极大的浪费,文本文件的大小会因此大出二三倍,这是无法接受的。

它们造成的结果是:1)出现了unicode的多种存储方式,也就是说有许多种不同的二进制格式,可以用来表示unicode2unicode在很长一段时间内无法推广,直到互联网的出现。

5.UTF-8

互联网的普及,强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种unicode的实现方式。其他实现方式还包括UTF-16UTF-32,不过在互联网上基本不用。重复一遍,这里的关系是,UTF-8Unicode的实现方式之一。

UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。

UTF-8的编码规则很简单,只有二条:

1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。

2)对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。

下表总结了编码规则,字母x表示可用编码的位。

Unicode符号范围 | UTF-8编码方式
(
十六进制) | (二进制)
--------------------+---------------------------------------------
0000 0000-0000 007F |0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

下面,还是以汉字为例,演示如何实现UTF-8编码。

已知unicode4E25100111000100101),根据上表,可以发现4E25处在第三行的范围内(0000 0800-0000FFFF),因此UTF-8编码需要三个字节,即格式是“1110xxxx 10xxxxxx10xxxxxx”。然后,从的最后一个二进制位开始,依次从后向前填入格式中的x,多出的位补0。这样就得到了,UTF-8编码是“11100100 1011100010100101”,转换成十六进制就是E4B8A5

6. UnicodeUTF-8之间的转换

通过上一节的例子,可以看到Unicode码是4E25UTF-8编码是E4B8A5,两者是不一样的。它们之间的转换可以通过程序实现。

Windows平台下,有一个最简单的转化方法,就是使用内置的记事本小程序Notepad.exe。打开文件后,点击文件菜单中的另存为命令,会跳出一个对话框,在最底部有一个编码的下拉条。

里面有四个选项:ANSIUnicodeUnicode big endian UTF-8

1ANSI是默认的编码方式。对于英文文件是ASCII编码,对于简体中文文件是GB2312编码(只针对Windows简体中文版,如果是繁体中文版会采用Big5码)。

2Unicode编码指的是UCS-2编码方式,即直接用两个字节存入字符的Unicode码。这个选项用的little endian格式。

3Unicode big endian编码与上一个选项相对应。我在下一节会解释little endianbig endian的涵义。

4UTF-8编码,也就是上一节谈到的编码方法。

选择完编码方式后,点击保存按钮,文件的编码方式就立刻转换好了。

7. Little endianBig endian

上一节已经提到,Unicode码可以采用UCS-2格式直接存储。以汉字为例,Unicode码是4E25,需要用两个字节存储,一个字节4E,另一个字节是25。存储的时候,4E在前,25在后,就是Big endian方式;25在前,4E在后,就是Little endian方式。

这两个古怪的名称来自英国作家斯威夫特的《格列佛游记》。在该书中,小人国里爆发了内战,战争起因是人们争论,吃鸡蛋时究竟是从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开。为了这件事情,前后爆发了六次战争,一个皇帝送了命,另一个皇帝丢了王位。

因此,第一个字节在前,就是大头方式Big endian),第二个字节在前就是小头方式Little endian)。

那么很自然的,就会出现一个问题:计算机怎么知道某一个文件到底采用哪一种方式编码?

Unicode规范中定义,每一个文件的最前面分别加入一个表示编码顺序的字符,这个字符的名字叫做零宽度非换行空格ZERO WIDTH NO-BREAK SPACE),用FEFF表示。这正好是两个字节,而且FFFE1

如果一个文本文件的头两个字节是FE FF,就表示该文件采用大头方式;如果头两个字节是FF FE,就表示该文件采用小头方式。

8. 实例

下面,举一个实例。

打开记事本程序Notepad.exe,新建一个文本文件,内容就是一个字,依次采用ANSIUnicodeUnicode big endian UTF-8编码方式保存。

然后,用文本编辑软件UltraEdit十六进制功能,观察该文件的内部编码方式。

1ANSI:文件的编码就是两个字节“D1 CF”,这正是GB2312编码,这也暗示GB2312是采用大头方式存储的。

2Unicode:编码是四个字节“FF FE 25 4E”,其中“FF FE”表明是小头方式存储,真正的编码是4E25

3Unicode big endian:编码是四个字节“FE FF 4E 25”,其中“FE FF”表明是大头方式存储。

4UTF-8:编码是六个字节“EF BB BF E4 B8 A5”,前三个字节“EF BB BF”表示这是UTF-8编码,后三个“E4B8A5”就是的具体编码,它的存储顺序与编码顺序是一致的。

9. 延伸阅读

* The Absolute Minimum Every Software DeveloperAbsolutely, Positively Must Know About Unicode and Character Sets(关于字符集的最基本知识)

* 谈谈Unicode编码

* RFC3629:UTF-8, a transformation format of ISO 10646(如果实现UTF-8的规定)

(完)

另一篇

**************************************************************************************

URL:http://blog.csdn.net/liusichen_0/archive/2009/03/24/4020250.aspx

**************************************************************************************

UnicodeUTF-8之间的转换详解

2008-04-29 13:38

通过这几天的研究,终于明白了Unicode和UTF-8之间编码的区别。Unicode是一个字符集,而UTF-8是Unicode的其中一种,Unicode是定长的都为双字节,而UTF-8是可变的,对于汉字来说Unicode占有的字节比UTF-8占用的字节少1个字节。Unicode为双字节,而UTF-8中汉字占三个字节。
网魂小兵http://xdotnet.cnblogs.com
UTF-8
编码字符理论上可以最多到6个字节长,然而16位BMP(Basic Multilingual Plane)字符最多只用到3字节长。下面看一下UTF-8编码表:

U-00000000 - U-0000007F:0xxxxxxx
U-00000080 - U-000007FF: 110xxxxx 10xxxxxx
U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx
U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx


xxx
的位置由字符编码数的二进制表示的位填入, 越靠右的 x 具有越少的特殊意义,只用最短的那个足够表达一个字符编码数的多字节串。 注意在多字节串中, 第一个字节的开头"1"的数目就是整个串中字节的数目。而第一行中以0开头,是为了兼容ASCII编码,为一个字节,第二行就为双字节字符串,第三行为3字节,如汉字就属于这种,以此类推。(个人认为:其实我们可以简单的把前面的1的个数看成字节数)
网魂小兵http://xdotnet.cnblogs.com
为了要将Unicode转换为UTF-8,当然要知道他们的区别到底在什么地方。下面来看一下,在Unicode中的编码是怎样转换成UTF-8的,在UTF-8中,如果一个字符的字节小于0x80(128)则为ASCII字符,占一个字节,可以不用转换,因为UTF-8兼容ASCII编码。假如在Unicode中汉字“你”的编码为“u4F60,把它转换为二进制为100111101100000,然后按照UTF-8的方法进行转换。可以将Unicode二进制从低位往高位取出二进制数字,每次取6位,如上述的二进制就可以分别取出为如下所示的格式,前面按格式填补,不足8位用0填补。


unicode: 100111101100000 4F60

utf-8:
11100100,10111101,10100000 E4BDA0


从上面就可以很直观的看出Unicode到UTF-8之间的转换,当然知道了UTF-8的格式后,就可以进行逆运算,就是按照格式把它在二进制中的相应位置上取出,然后在转换就是所得到的Unicode字符了(这个运算可以通过“位移”来完成)。
网魂小兵http://xdotnet.cnblogs.com
如上述的“你”的转换,由于其值大于0x800小于0x10000,因此可以判断为三字节存储,则最高位需要向右移“12”位再根据三字节格式的最高位为11100000(0xE0)求或(|)就可以得到最高位的值了。同理第二位则是右移“6”位,则还剩下最高位和第二位的二进制值,可以通过与111111(0x3F)求按位于(&)操作,再和11000000(0x80)求或(|)。第三位就不用移位了,只要直接取最后六位(与111111(ox3F)取&),在与11000000(0x80)求或(|)。OK了,转换成功!在VC++中的代码如下所示(Unicode到UTF-8的转换)。

1const wchar_t pUnicode = L"你";
2char utf8[3+1];
3memset(utf8,0,4);
4utf8[0] = 0xE0|(pUnicode>>12);
5utf8[1] = 0x80|((pUnicode>>6)&0x3F);
6utf8[2] = 0x80|(pUnicode&0x3F);
7utf8[3] = "/0";
8//char[4]就是UTF-8的字符“你”了。


当然在UTF-8到Unicode的转换也是通过移位等来完成的,就是把UTF-8那些格式相应的位置的二进制数给揪出来。在上述例子中“你”为三个字节,因此要每个字节进行处理,有高位到低位进行处理。在UTF-8中“你”为11100100,10111101,10100000。从高位起即第一个字节11100100就是把其中的"0100"给取出来,这个很简单只要和11111(0x1F)取与(&),由三字节可以得知最到位肯定位于12位之前,因为每次取六位。所以还要将得到的结果左移12位,最高位也就这样完成了0100,000000,000000。而第二位则是要把“111101”给取出来,则只需将第二字节10111101和111111(0x3F)取与(&)。在将所得到的结果左移6位与最高字节所得的结果取或(|),第二位就这样完成了,得到的结果为0100,111101,000000。以此类推最后一位直接与111111(0x3F)取与(&),再与前面所得的结果取或(|)即可得到结果0100,111101,100000。OK,转换成功!在VC++中的代码如下所示(UTF-8到Unicode的转换)。

1//UTF-8格式的字符串
2constchar* utf8 = "你";
3wchar_t unicode;
4unicode = (utf8[0] & 0x1F)<< 12;
5unicode |= (utf8[1] & 0x3F)<< 6;
6unicode |= (utf8[2] & 0x3F);
7//unicode is ok!

网魂小兵http://xdotnet.cnblogs.com
当然在编程过程中不可能只转换一个字符,这里需要注意的是字符的长度一定要算清楚,不然会带来...以上就是我这几天研究的结果,至于Unicode的转换为GB2312在MFC中Windows有自带的API(WideCharToMultiByte)可以转换。这样也就能够将UTF-8格式转换为GB2312了,这里就不再赘述,如果大家有更好的方法希望指教。

全文完

另一篇

**************************************************************************************

URL: http://blog.csdn.net/axes/archive/2005/12/10/548430.aspx

**************************************************************************************

字符串UTF-8ASCII相互转换

LPSTRConvert(LPCSTR str, int sourceCodepage, int targetCodepage)
{
int len=_tcslen(str);
int unicodeLen=MultiByteToWideChar(sourceCodepage,0,str,-1,NULL,0);
wchar_t* pUnicode;
pUnicode=new wchar_t[unicodeLen+1];
memset(pUnicode,0,(unicodeLen+1)*sizeof(wchar_t));

MultiByteToWideChar(sourceCodepage,0,str,-1,(LPWSTR)pUnicode,unicodeLen);

BYTE * pTargetData;
int targetLen=WideCharToMultiByte(targetCodepage,0,(LPWSTR)pUnicode,-1,(char*)pTargetData,0,NULL,NULL);

pTargetData=new BYTE[targetLen+1];
memset(pTargetData,0,targetLen+1);

WideCharToMultiByte(targetCodepage,0,(LPWSTR)pUnicode,-1,(char *)pTargetData,targetLen,NULL,NULL);

LPSTR szResult=new TCHAR[targetLen+1];
wsprintf(szResult,"%s",pTargetData);

delete[] pUnicode;
delete[] pTargetData;
return szResult;
}
用法
编码
Convert(str,936,CP_UTF8);
解码
Convert(str,CP_UTF8,936);

 

### 回答1: UTF-8是一种针对Unicode字符集进行编码的可变长度字符编码方案。它可以用来表示Unicode字符集中的任意字符,包括各种文字、符号和控制字符。UTF-8的编码长度根据字符的Unicode编码值的大小而变化,对于ASCII字符,UTF-8编码与ASCII相同,只需要一个字节表示;对于其他Unicode字符,UTF-8编码需要2到4个字节不等。 Unicode是一种字符集标准,它旨在为世界上所有的字符提供一个唯一的标识符,无论是汉字、拉丁字母、希腊字母、数学符号还是其他任何字符,都可以在Unicode中找到对应的编码。Unicode编码使用一种唯一的数字来表示每个字符,并通过使用不同的转换格式(如UTF-8、UTF-16等)将其存储或传输。 C是一种编程语言,可用于开发各种应用程序。在C语言中,可以使用UTF-8编码来处理Unicode字符集。C语言提供了一些处理字符串和字符的库函数,这些函数支持使用Unicode字符集进行字符串操作。通过使用适当的输入输出函数和字符处理函数,C语言可以处理包含Unicode字符的文本数据。 因此,UTF-8、Unicode和C之间存在着密切的联系。UTF-8用于编码Unicode字符集,而C语言提供了处理Unicode字符集的库函数。使用UTF-8编码的Unicode字符集,可以在C语言中进行处理和操作。这为开发人员提供了在C语言中处理多语言文本数据的能力,使得开发国际化应用程序变得更加简便。 ### 回答2: UTF-8是一种以字节为单位对 Unicode 进行编码的字符编码标准。它是一种全球通用的编码方式,能够表示几乎所有语言的字符。UTF-8采用可变长度的编码方式,用1至4个字节来表示一个字符。对于英文字符来说,UTF-8使用1个字节进行编码,而对于其他字符(例如汉字)则需要2至4个字节。由于UTF-8编码的字节数不固定,这也是它比其他编码方式更被广泛使用的主要原因之一。 Unicode是一种字符集标准,它定义了世界上几乎所有的字符和符号,并为它们分配了唯一的标识码,即码点。Unicode标准中包括了超过130万个字符,从最常见的拉丁字母到各种符号、表意文字和表情符号等。Unicode采用的是固定长度的编码方式,其中最常用的是UTF-16和UTF-8。 C语言中,通常使用utf-8编码来存储和处理字符串。由于UTF-8是一种基于字节的编码方式,它与C语言中的字符类型(char)能够相互兼容。在C语言中,可以使用char类型的数组来表示和处理UTF-8编码的字符串,同时也可以使用多字节字符集的函数库来处理UTF-8字符串。 总之,UTF-8是一种按字节编码的 Unicode 字符编码标准,它能够表示全球范围内几乎所有语言的字符。而Unicode是一个字符集标准,用于定义和标识世界上几乎所有的字符和符号。在C语言中,通常使用UTF-8编码来处理和存储字符串。 ### 回答3: UTF-8与Unicode是两种不同的字符编码方式,而C是一种计算机程序设计语言。 UTF-8(Universal Character Set Transformation Format-8)是一种可变长编码的Unicode字符编码方式。它可以用于表示Unicode字符集中的所有字符,包括拉丁字母、中日韩文字等。UTF-8编码使用1至4个字节表示不同的字符,具有较好的兼容性和可变长度特性,使得它在互联网传输中广泛应用。 Unicode是一种字符集标准,它为世界上几乎所有的字符都分配了一个唯一的数字。Unicode的目的是为了实现全球化的字符表示,使得不同国家的字符都能够得到统一的编码。 C是一种广泛应用于系统软件开发和嵌入式系统的高级程序设计语言。它是一种通用的、结构化的、面向过程的编程语言,具有高效、强大和灵活的特点。C语言原生支持ASCII编码,但对于使用UTF-8或Unicode编码的字符,可以使用转义序列来表示。 总结起来,UTF-8是一种编码方式,用于表示Unicode字符集中的字符,而C语言是一种程序设计语言,用于编写计算机程序。在C语言中,可以使用转义序列来处理UTF-8或Unicode编码的字符。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值