Unicode字符集与多字节字符集（这里的字符指的是字符变量，统称Char TCHAR WCHAR之类相关的东西

最新推荐文章于 2023-03-19 23:05:20 发布

毛小可嗒嗒

最新推荐文章于 2023-03-19 23:05:20 发布

阅读量606

点赞数

分类专栏：字符编码文章标签： Unicode LPCTSTR VC++

本文链接：https://blog.csdn.net/m041130112/article/details/52495408

版权

字符编码专栏收录该内容

1 篇文章 0 订阅

订阅专栏

成因：有些国际市场以大字符集来使用日文和中文等语言，所以简单地使用ASCII字符集来表示A,a,B,b……@，#，*已经不能满足需要了。

Microsoft基础类库 (MFC) 支持以两种方式处理大字符集：

Unicode
多字节字符集 (MBCS)

ASCII字符集属于ANSI编码的一种。各国语言的加入，ASCII显然不能满足了，因此，为了能够表示其它国家的文字，各国在ASCII的基础上制定了自己的字符集，这些从ANSI标准派生的字符集被习惯的统称为ANSI字符集，它们正式的名称应该是MBCS(Multi-Byte Chactacter System，即多字节字符系统)。这些派生字符集的特点是以ASCII 127 bits为基础，兼容ASCII 127，他们使用大于128的编码作为一个Leading Byte，紧跟在Leading Byte后的第二（甚至第三）个字符与Leading Byte一起作为实际的编码。这样的字符集有很多，我们常见的GB-2312就是其中之一。

由于每种语言都制定了自己的字符集，导致最后存在的各种字符集实在太多，在国际交流中要经常转换字符集非常不便。因此，提出了Unicode字符集，它固定使用16 bits（两个字节、一个字）来表示一个字符，共可以表示65536个字符。将世界上几乎所有语言的常用字符收录其中，方便了信息交流。标准的Unicode称为UTF-16。后来为了双字节的Unicode能够在现存的处理单字节的系统上正确传输，出现了UTF-8，使用类似MBCS的方式对Unicode进行编码。注意UTF-8是编码，它属于Unicode字符集。Unicode字符集有多种编码形式，而ASCII只有一种，大多数MBCS（包括GB-2312）也只有一种。Unicode的最初目标，是用1个16位的编码来为超过65000字符提供映射。但这还不够，它不能覆盖全部历史上的文字，也不能解决传输的问题 (implantation head-ache's)，尤其在那些基于网络的应用中。已有的软件必须做大量的工作来程序16位的数据。因此，Unicode用一些基本的保留字符制定了三套编码方式。它们分别是UTF-8,UTF-16和UTF-32。
多字节字符（Multi-Byte Char）集，就是说有些非英文字符（ASCII之外）的字符，如中文，日语无法用一个字节表示，所以采用2个字节或者多个字节。这种字符集下，英文字符占用一个字节，而中文占用两个字节。
Unicode是一种宽字节字符（WideChar）集，将所有的字符都变成等宽。因此，英文字符就占用2个字节，中文也占用2个字节。

LPCTSTR:

LPCTSTR用来表示你的字符是否使用UNICODE, 如果你的程序定义了UNICODE或者其他相关的宏，那么这个字符或者字符串（你的字符，不是说LPCTSTR）将被作为UNICODE字符串，否则就是标准的ANSI字符串。

msdn定义：A 32-bit pointerto a constant character string that is portable for Unicode and DBCS.

LPCTSTR就是一个指向const对象的指针。LPCTSTR == const TCHAR *

L:表示long指针，没有实际意义

P:表示这是一个指针

C:表示这是一个常量

T:这是一个适配宏_T

STR:表示这个变量是字符串

程序定义了UNICODE或者其他相关的宏，这就字符串就是unicode字符串，LPCTSTR = PCWSTR指向一个恒定的Unicode字符串的指针。同理，PTSTR = PWSTR 指向Unicode字符串的指针；TCHAR =WCHAR表示Unicode字符。

如果没有相关宏，就是ANSI(或者叫多字节字符集MBCS)字符串。LPCTSTR= LPCSTR；PTSTR = LPSTR；TCHAR = CHAR。

_T:

这是一个适配宏，如果程序通过条件编译（通过_UNICODE和UNICODE宏）控制实际使用的字符集，就是unicode编码。否则就是ANSI编码。

看这个：

#ifdef UNICODE

typedef wchar_t TCHAR;

#else

typedef unsigned char TCHAR;

#endif

typedef unsigned char CHAR;

typedef unsigned wchar_t WCHAR;

如果采用unicode编码，TCHAR就是WCHAR =wchar_t

采用ANSI编码， TCHAR就是unsignedchar = CHAR

表示字符串资源采用Unicode编码

毛小可嗒嗒

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Unicode字符集与多字节字符集（这里的字符指的是字符变量，统称Char TCHAR WCHAR之类相关的东西

成因：有些国际市场以大字符集来使用日文和中文等语言，所以简单地使用ASCII字符集来表示A,a,B,b……@，#，*已经不能满足需要了。Microsoft基础类库 (MFC) 支持以两种方式处理大字符集： Unicode 多字节字符集 (MBCS)ASCII字符集属于ANSI编码的一种。各国语言的加入，ASCII显然不能满足了，因此，为了能够表示其它国家的文字，
复制链接

扫一扫