在Window平台下开发时,总是遇到类似LPSTR、LPCSTR、LPWSTR、LPCWSTR这类的字符串别名,如果搞不清楚,会十分蛋疼……
最近我也是在着手处理把项目从Unicode转多字节字符集/多字节字符集转Unicode,期间各种编码,字符类型啥的几百上千个错误,各种定义,各种别名满天飞,哎,是在受不了了,所以总结下……
首先提醒各位的是:建立项目初期(本片博客只针对Window平台下的项目),一定要选定好编码的字符集,不然后期,移接、转换语言会有各种问题……
众所周知,打开visual studio,创建项目,右键项目属性->配置属性->常规,查看面板中 项目默认值选项的 字符集选项,会发现有两种选择:Unicode 和 多字节字符集(这俩种有啥区别呢?见我慢慢道来……)
一、简易介绍:
1.Unicode:
Unicode(即“统一码、万国码”),说的这么高大上,个人理解为:Unicode就是宽字节编码, 每两个字节表示一个任意字符。因为传统的单字节编码可以满足英文字符,数字啥的,但时一旦跨越语言,就不行了(一个无符号字节8位,所能表示的二进制数也就
是0~255的范围,处理英文 + 数字 + 键盘上的若干符号还是可以的)。因此就需要更多位数来表示更多的字符,所以就需要Unicode编码。 例如:"abc"占6个字节,"呵呵abc"占10个字节(这中间有5个字符,每个字符占2个字节,结果就是 5×2 = 10)
2.多字节字符集:
也就是传统字符集,就是一个或多个字节表示一个任意字符。例如"abc"占3个字节,"呵呵abc"占9个字节(其中每个汉字占3个字节)
有人肯定会疑惑:什么JB玩意儿,为啥Unicode下汉字占2字节,传统字符集下汉字就占3字节 ? 原因就是Unicode是宽字节,以2字节为单位,2个字节就代表任意一个字符,管你是什么字符都满足(国际规定是这样,两个字节可以涵盖几乎所有字符了);而传统
字符集是以1字节为单位,表示不了所有字符,就比方说 汉字,就尼玛255的范围,你能干啥?所以要用一个或多个字节表示任意字符了。
bb这么多,不知你是否明白,好吧,以上只是我个人理解,文辞比较粗俗,如果还是不懂,可自行度娘查找更权威详细的解释和案例……
二、回归主题,言归正传了:
C / C++语法规定,char表示字符类型,char*,char[]表示"字符串",也就是多个字符的意思(请不要纠结细节,原理基本是这样,这里简陋的说明一下,有利于展开思路)
因此到了Windows平台下就有:
关键字 typdef
char CHAR
char* PCHAR、LPSTR等
wchar_t WCHAR
wchar_t* PWCHAR、LPWSTR等
如果想自动检测字符集的话(Unicode和多字符集), Windows又为我们提供了大量条件编译(宏 + 别名):
会根据:
#ifdef UNICODE
采用宽字符
#else
采用窄字符
#end
TCHAR 根据上述原理判断是 CHAR 还是 WCHAR
LPTSTR 同上,判断是 LPCHAR 还是 LPWCHAR
LPTCSTRconst char* / const wchar_t*等
……根据微软命名规律,依次类推 :
LP 表示指针,T表示条件编译自动选择char还是wchar_t,C表示const,STR表示"字符串"的意思……
大概掌握这个命名套路,然后你再看LPWSTR、LPCWSTR、LPCTSTR是不是瞬间一目了然了?
然后我们常用的字符串操作函数也对应"宽"、"窄"版本,这里我大概介绍一些命名规律,你们今后也可以一目了然
窄字节版本(原始版本) 宽字节版本 条件编译, 自动选择的版本
strcpy