成因:有些国际市场以大字符集来使用日文和中文等语言,所以简单地使用ASCII字符集来表示A,a,B,b……@,#,*已经不能满足需要了。
Microsoft基础类库 (MFC) 支持以两种方式处理大字符集:
- Unicode
- 多字节字符集 (MBCS)
- ASCII字符集属于ANSI编码的一种。各国语言的加入,ASCII显然不能满足了,因此,为了能够表示其它国家的文字,各国在ASCII的基础上制定了自己的字符集,这些从ANSI标准派生的字符集被习惯的统称为ANSI字符集,它们正式的名称应该是MBCS(Multi-Byte Chactacter System,即多字节字符系统)。这些派生字符集的特点是以ASCII 127 bits为基础,兼容ASCII 127,他们使用大于128的编码作为一个Leading Byte,紧跟在Leading Byte后的第二(甚至第三)个字符与Leading Byte一起作为实际的编码。这样的字符集有很多,我们常见的GB-2312就是其中之一。
- 由于每种语言都制定了自己的字符集,导致最后存在的各种字符集实在太多,在国际交流中要经常转换字符集非常不便。因此,提出了Unicode字符集,它固定使用16 bits(两个字节、一个字)来表示一个字符,共可以表示65536个字符。将世界上几乎所有语言的常用字符收录其中,方便了信息交流。标准的Unicode称为UTF-16。后来为了双字节的Unicode能够在现存的处理单字节的系统上正确传输,出现了UTF-8,使用类似MBCS的方式对Unicode进行编码。注意UTF-8是编码,它属于Unicode字符集。Unicode字符集有多种编码形式,而ASCII只有一种,大多数MBCS(包括GB-2312)也只有一种。Unicode的最初目标,是用1个16位的编码来为超过65000字符提供映射。但这还不够,它不能覆盖全部历史上的文字,也不能解决传输的问题 (implantation head-ache's),尤其在那些基于网络的应用中。已有的软件必须做大量的工作来程序16位的数据。因此,Unicode用一些基本的保留字符制定了三套编码方式。它们分别是UTF-8,UTF-16和UTF-32。
- 多字节字符(Multi-Byte Char)集,就是说有些非英文字符(ASCII之外)的字符,如中文,日语无法用一个字节表示,所以采用2个字节或者多个字节。这种字符集下,英文字符占用一个字节,而中文占用两个字节。
- Unicode是一种宽字节字符(WideChar)集,将所有的字符都变成等宽。因此,英文字符就占用2个字节,中文也占用2个字节。
LPCTSTR:
- LPCTSTR用来表示你的字符是否使用UNICODE, 如果你的程序定义了UNICODE或者其他相关的宏,那么这个字符或者字符串(你的字符,不是说LPCTSTR)将被作为UNICODE字符串,否则就是标准的ANSI字符串。
msdn定义:A 32-bit pointerto a constant character string that is portable for Unicode and DBCS.
LPCTSTR就是一个指向const对象的指针。LPCTSTR == const TCHAR *
L:表示long指针 ,没有实际意义
P:表示这是一个指针
C:表示这是一个常量
T:这是一个适配宏_T
STR:表示这个变量是字符串
程序定义了UNICODE或者其他相关的宏,这就字符串就是unicode字符串,LPCTSTR = PCWSTR指向一个恒定的Unicode字符串的指针 。同理,PTSTR = PWSTR 指向Unicode字符串的指针;TCHAR =WCHAR表示Unicode字符 。
如果没有相关宏,就是ANSI(或者叫多字节字符集MBCS)字符串。LPCTSTR= LPCSTR;PTSTR = LPSTR;TCHAR = CHAR。
_T:
- 这是一个适配宏,如果程序通过条件编译(通过_UNICODE和UNICODE宏)控制实际使用的字符集,就是unicode编码。否则就是ANSI编码。
看这个:
#ifdef UNICODE
typedef wchar_t TCHAR;
#else
typedef unsigned char TCHAR;
#endif
typedef unsigned char CHAR;
typedef unsigned wchar_t WCHAR;
如果采用unicode编码,TCHAR就是WCHAR =wchar_t
采用ANSI编码, TCHAR就是unsignedchar = CHAR
L:
- 表示字符串资源采用Unicode编码