多字符集(ANSI)和UNICODE及字符串处理方式准则

最新推荐文章于 2019-04-23 20:16:00 发布

iteye_13775

最新推荐文章于 2019-04-23 20:16:00 发布

阅读量157

点赞数

分类专栏：技术杂绘

本文链接：https://blog.csdn.net/iteye_13775/article/details/82366567

版权

技术杂绘专栏收录该内容

17 篇文章 0 订阅

订阅专栏

　　在我们编写程序的时候，使用最多的是字符串的处理，而ANSI和UNICODE的相互转换经常搞的我们头晕眼乱。
　　应该说UNICODE是一种比较好的编码方式，在我们的程序中应该尽量使用UNICODE编码方式，我们在编写程序的时候，最好能依据下面的准则来进行：
　　基本准则：
　　1.将文本字符串想象为字符数组，而非char或字节数组
　　2.开始使用通用数据类型来表示文本字符和字符串（如TCHAR，PTSTR）
　　原因是我们可以在WinNT.h的头文件中找到如下定义（代码有删改）： #ifndef VOID #define VOID void typedef char CHAR; typedef short SHORT; typedef long LONG; typedef int INT; #endif #endif // // UNICODE (Wide Character) types // #ifndef _MAC typedef wchar_t WCHAR; // wc, 16-bit UNICODE character #else // some Macintosh compilers don't define wchar_t in a convenient location, or define it as a char typedef unsigned short WCHAR; // wc, 16-bit UNICODE character #endif typedef WCHAR *PWCHAR, *LPWCH, *PWCH; typedef CONST WCHAR *LPCWCH, *PCWCH; typedef WCHAR *NWPSTR, *LPWSTR, *PWSTR; typedef PWSTR *PZPWSTR; typedef CONST PWSTR *PCZPWSTR; typedef WCHAR UNALIGNED *LPUWSTR, *PUWSTR; typedef CONST WCHAR *LPCWSTR, *PCWSTR; typedef PCWSTR *PZPCWSTR; typedef CONST WCHAR UNALIGNED *LPCUWSTR, *PCUWSTR; typedef CONST WCHAR *LPCWCHAR, *PCWCHAR; typedef CONST WCHAR UNALIGNED *LPCUWCHAR, *PCUWCHAR; // // UCS (Universal Character Set) types // typedef unsigned long UCSCHAR; #define UCSCHAR_INVALID_CHARACTER (0xffffffff) #define MIN_UCSCHAR (0) // // ANSI (Multi-byte Character) types // typedef CHAR *PCHAR, *LPCH, *PCH; typedef CONST CHAR *LPCCH, *PCCH; typedef CHAR *NPSTR, *LPSTR, *PSTR; typedef PSTR *PZPSTR; typedef CONST PSTR *PCZPSTR; typedef CONST CHAR *LPCSTR, *PCSTR; typedef PCSTR *PZPCSTR; // // Neutral ANSI/UNICODE types and macros // #ifdef UNICODE // r_winnt #ifndef _TCHAR_DEFINED typedef WCHAR TCHAR, *PTCHAR; typedef WCHAR TBYTE , *PTBYTE ; #define _TCHAR_DEFINED #endif /* !_TCHAR_DEFINED */ typedef LPWCH LPTCH, PTCH; typedef LPWSTR PTSTR, LPTSTR; typedef LPCWSTR PCTSTR, LPCTSTR; typedef LPUWSTR PUTSTR, LPUTSTR; typedef LPCUWSTR PCUTSTR, LPCUTSTR; typedef LPWSTR LP; #define __TEXT(quote) L##quote // r_winnt #else /* UNICODE */ // r_winnt #ifndef _TCHAR_DEFINED typedef char TCHAR, *PTCHAR; typedef unsigned char TBYTE , *PTBYTE ; #define _TCHAR_DEFINED #endif /* !_TCHAR_DEFINED */ typedef LPCH LPTCH, PTCH; typedef LPSTR PTSTR, LPTSTR, PUTSTR, LPUTSTR; typedef LPCSTR PCTSTR, LPCTSTR, PCUTSTR, LPCUTSTR; #define __TEXT(quote) quote // r_winnt #endif /* UNICODE */ // r_winnt 3.用明确的数据类型来表示字节，字节指针和数据缓冲区（如BYTE, PBYTE）原因如上同
　　4.使用TEXT或是_T来表示字面量字符和字符串（这两个宏会根据你自己设置的字符集属性，动态转换成相应的字符集）
　　5.执行全局替换，原因同2.
　　6.修改与字符串有关的计算。如有些函数需要我们传入缓冲区大小的字符数，这个时候就需要_countof(szBuffer),而不是sizeof(szBuffer)；
　　有些时候我们需要为一个字符串分配内存，那么内存是使用字节数来分配的，这个时候我们就需要使用malloc(nCharacters*sizeof(TCHAR))，而不是使用malloc(nCharacters).
　　我们可以使用如下样式的宏来处理这个问题： #define chmalloc(nCharacters) (TCHAR*)malloc(nCharacters*sizeof(TCHAR)) 7.尽量避免使用printf系列的函数，尤其是有%s,%S字段类型来进行ANSI和Unicode字符串之间的相互转换。正确的做法是使用MultiByteToWideChar和WideCharToMultiByte函数
　　8.对于UNICODE和_UNICODE，要么都定义，要么都不要用，因为VS会在我们创建项目的时候默认定义_UNICODE。
　　9.使用安全的字符串函数，如后缀为_s的函数或是前缀为StringCch的函数，后者会截断字符串。前者需指定字符串长度。
　　10.使用/GS 和/RTCS编译器选项来自动检测缓冲区溢出。
　　使用UNICODE编码规范是一种好的编程习惯，但是，有的时候，我们不得不使用ANSI编码方式，这种情况该如何处理呢？
　　请看下集UNICODE和ANSI字符串的转换《让你的程序更加适用--使用ANSI和UNICODE导出函数》

iteye_13775

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
多字符集(ANSI)和UNICODE及字符串处理方式准则

　　在我们编写程序的时候，使用最多的是字符串的处理，而ANSI和UNICODE的相互转换经常搞的我们头晕眼乱。　　应该说UNICODE是一种比较好的编码方式，在我们的程序中应该尽量使用UNICODE编码方式，我们在编写程序的时候，最好能依据下面的准则来进行：　　基本准则：　　1.将文本字符串想象为字符数组，而非char或字节数组　　2.开始使用通用数据类型来表示文本字符和字符串（...
复制链接

扫一扫