UNICODE编程

转载 2007年09月11日 22:58:00

1. 进行Unicode编程 

文章来源:http://blog.csdn.net/tuwen/archive/2007/08/14/1742879.aspx

在windows下编程还是支持unicode吧,大势所趋啊,window 2k以后的系统底层都是基于Unicode的,就算你调用ANSI的API(以A结尾比如SetWidowsTextA),系统也会在你的进程默认堆上动态分配一块内存,存放转换后的Unicode字符串,然后把转换后的字符串传递给API,如果调用了返回值为ANSI字符串的API,Windows会在后台进行相反的转换,多浪费时间啊!!就算不考虑效率问题,难道你不想让你的软件国际化吗?你还想面临半个汉字等尴尬的问题吗?

    其实VC中进行Unicode编程也不麻烦,大概如下:
1.为工程添加UNICODE和_UNICODE预处理选项,在VC.net中就是 项目 -> 属性 -> c/c++ -> 预处理器 在"预处理定义"中加入这两个宏定义(vc6中 project -> settings -> c/c++ -> general 中的 Preprocessor definitions).

2.Include <TCHAR.h>(一般在stdafx.h中)然后把所有使用char*定义变量的地方换为LPTSTR/TCHAR*或LPCTSTR/const TCHAR*(对应于const char*).

3.把所有的字符串常量用_T()宏包起来,比如 TCHAR* szText = _T("我的Text");

4.所有的C库字符串操作函数也做相应的替换,比如
strlen ->_tcslen
strcat ->_tcscat
strcmp ->_tcscmp
......
    注意,这些函数中的"文本长度"均为字符个数,而非char个数具体参看MSDN.

5.API调用一般不用做特殊处理,当定义了UNICODE和_UNICODE后,所有的API都会被宏指向W结尾的版本(不定义则指向A结尾的版本).

    其实,上面所说的并非强制你使用UNICODE,如果你还想回去使用ANSI,没有问题,把第一步定义的两个宏拿掉就OK了,继续我们的ANSI编程!! 
 2.UNICODE编程

 

文章来源:http://blog.csdn.net/sunspoter/archive/2005/12/07/545559.aspx
是一个许多人(包括我自己)曾经或至今仍疑惑的问题(这里我们只讨论UTF-16,即双字节版本)。
1.关于UNICODE
  首先,UNICODE主要使用的字符类型是WCHAR,定义是unsigned short。从定义我们可以看出这是一个双字节的类型,就是每一个字符占2个字节。这样的话,可以表示的字符类型就可以多达6万多。所有之前的ASCII码分布在0x0000-0x00ff之间,而汉字(包括big5)分布在0x4e00到0x9fff之间。整个unicode包含了几乎世界上所有的文字。关于UNICODE的细节,可以参看以下网页
http://www.unicode.org/unicode/standard/translations/s-chinese.html
2.为什么要使用UNICODE
  1) COM:在COM规范中,明确指定了必须使用UNICODE类型,这正是微软充分考虑了跨平台的结果。这也是为什么经常在COM中可以看到BSTR(WCHAR*)类型
  2)WIN2000和WINNT:在这两个平台中,默认的字符处理方式是UNICODE。即使你写了一个非UNICODE(multibyte)的程序,系统在执行的时候仍然会对你的字符进行一次转换,这样无疑浪费了CPU时间,使用UNICODE可以有效的提高程序的运行效率(仅使用于这两个平台)。当然将来的XP也会如此。
  3)通用性:使用UNICODE可以使我们不在为汉字和英文字符的判断而烦恼(都是2个字节)。
3.如何使用UNICODE
  1)首先推荐的类型是TCHAR(通用字符类型)。当你定义了_UNICODE宏的时候,TCHAR就是WCHAR,当你没有定义这个宏的时候,TCHAR就是char,很不可思议吧,我们可以来看一下TCHAR的定义:
#ifdef UNICODE // r_winnt
typedef WCHAR TCHAR, *PTCHAR;
#else /* UNICODE */ // r_winnt
typedef char TCHAR, *PTCHAR;
#endif /* !_TCHAR_DEFINED */
上面的代码来自WINNT.H我剔除了一些无关的部分。现在一切都显而易见了。
通过TCHAR,我们只需要这样一段代码:
TCHAR tStr[] = _T("t code");
MessageBox(tStr);
就可以支持UNICODE和MULTIBYTE两种版本。_T宏的作用就是转换成TCHAR。
        2)关于其他的处理
        首先是常用的CString,它本身就支持UNICODE。下面的例子说明了用法:
        CString *pFileName = new CString("c://tmpfile.txt");
      #ifdef _UNICODE
        m_hFile = CreateFile(pFileName->AllocSysString(),
        GENERIC_READ | GENERIC_WRITE,  FILE_SHARE_READ,NULL,OPEN_EXISTING,FILE_ATTRIBUTE_NORMAL, NULL);#else
m_hFile = CreateFile(pFileName->GetBuffer(pFileName->GetLength()),
GENERIC_READ | GENERIC_WRITE,
FILE_SHARE_READ,
NULL,
OPEN_EXISTING,
FILE_ATTRIBUTE_NORMAL,
NULL);
#endif
3) 当我们在UNICODE方式中需要为一个字串常量附值时可以使用L宏,如:
BSTR wcsStr = L"unicode";
  这样的附值很简便,但是,经过L宏处理后的字串一定是UNICODE,如果你吧它附给一个MULTIBYTE的字串,字符将可能会被截断。
  另外,VC还提供了一些函数如WideCharToMultiByte和MultiByteToWideChar还有另外的一些宏来支持转换。大家可以看MSDN。

4.编译器的设置:
  首先我们需要在project->settings->C/C++的属性页中的Preprocessor中写入_UNICODE,然后在link属性页中Category中选择output,在Entry-Point symbol 中添加wWinMainCRTStartup,这样,我们的UNICODE工程便大功告成。

Windows编程 Unicode编码和通用字符类型TCHAR

编写代码中,代码中的字符串类型,应尽量使用宽字节类型,如 wchar_t,DWORD,    因为自Windows NT开始,Windows的所有版本都使用Unicode来实现,纵然你使用的是ANSI...
  • RitMan
  • RitMan
  • 2015年12月30日 23:58
  • 765

MFC Socket编程时遇到的多字符、Unicode字符集问题

MFC Unicode 多字节 socket
  • u012719559
  • u012719559
  • 2015年01月27日 15:33
  • 982

聊聊计算机中的编码(Unicode,GBK,ASCII,utf8,utf16,ISO8859-1等)以及乱码问题的解决办法

作为一个程序员,一个中国的程序员,想来“乱码”问题基本上都遇到过,也为之头疼过。出现乱码问题的根本原因是编码与解码使用了不同而且不兼容的“标准”,在国内一般出现在中文的编解码过程中。我们平时常见的编码...
  • renwotao2009
  • renwotao2009
  • 2016年05月02日 11:48
  • 1263

Unicode字符列表

代码 显示 描述 U+0020 空格 U+0021 ! 叹号 U+0022 " 双引号 U+0023 # 井号 U+0024 $ 价钱/货币符号 U+0025 % ...
  • saycheesenn
  • saycheesenn
  • 2016年10月28日 10:26
  • 1046

【整理】ANSI和UNICODE字符串处理函数

字符串处理函数常用函数对照 ANSI UNICODE 通用 说明 数据类型 (char.h) (wchar.h) (tchar.h)   cha...
  • chenzy945
  • chenzy945
  • 2016年07月17日 10:41
  • 2314

unicode编码规则

一、Unicode与UTF-8之间的的关系 Unicode只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。 比如“二”字的unicode十六进制编码是:“4E8C...
  • u014200359
  • u014200359
  • 2014年04月13日 20:53
  • 2255

MFC与unicode的纠结

关于MFC的小总结
  • w417950004
  • w417950004
  • 2015年09月17日 20:31
  • 920

按行读取ANSI、UNICODE 、UNICODE big endian、UTF-8四种文本文

代码简介 1.问题提出 MFC提供的文件类CStdioFile,其中一个函数ReadString实现了文件的按行读取,但是不能满足不同类型的文本文件的按行读取,为了解决这一问题,笔者初步研究了一些...
  • sky101010ws
  • sky101010ws
  • 2016年06月20日 16:35
  • 1671

特殊符号 UNICODE编码

⇠  箭头类 符号 UNICODE 符号 UNICODE HTML JS CSS HTML JS CSS ...
  • Tectool
  • Tectool
  • 2016年06月03日 12:22
  • 14974

说一说ASCLL和Unicode

关于字符编码这个展开来说有太多东西了,这里主要是想说一说最常说的ASCLL和Unicode字符编码的问题,这样至少你在用相关函数的时候,可以搞明白参数的真正含义。读完这篇博客相信你对编码相关函数的使用...
  • wenzhou1219
  • wenzhou1219
  • 2015年03月21日 09:57
  • 5972
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:UNICODE编程
举报原因:
原因补充:

(最多只允许输入30个字)