字符编码基础

最新推荐文章于 2024-09-03 15:54:49 发布

crury

最新推荐文章于 2024-09-03 15:54:49 发布

阅读量652

点赞数

分类专栏： C++ 文章标签： preprocessor windows 扩展 mfc api 语言

C++ 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

前段时间由VC6.0转VS2008碰到很多问题，大部分都是关于Unicode编码与ASCII编码转换造成的。在网上找了一篇文章，看了以后豁然开朗，现转载如下：

转自：http://blog.sina.com.cn/s/blog_4b7e71290100b0rj.html

一、从ASCII码到UNICODE

计算机发明后，为了在计算机中表示字符，人们制定了一种编码，叫ASCII码。ASCII码由一个字节中的7位(bit)表示，范围是0x00 - 0x7F 共128个字符。他们以为这128个数字就足够表示abcd...ABCD...1234 这些字符了。

咳......说英语的人就是“笨”！后来他们突然发现，如果需要按照表格方式打印这些字符的时候，缺少了“制表符”。于是又扩展了ASCII的定义，使用一个字节的全部8位(bit)来表示字符了，这就叫扩展ASCII码。范围是0x00 - 0xFF 共256个字符。

咳......说中文的人就是聪明！中国人利用连续2个扩展ASCII码的扩展区域（0xA0以后）来表示一个汉字，该方法的标准叫GB-2312。后来，日文、韩文、阿拉伯文、台湾繁体（BIG-5）......都使用类似的方法扩展了本地字符集的定义，现在统一称为 MBCS 字符集（多字节字符集）。这个方法是有缺陷的，因为各个国家地区定义的字符集有交集，因此使用GB-2312的软件，就不能在BIG-5的环境下运行（显示乱码），反之亦然。

咳......说英语的人终于变“聪明”一些了。为了把全世界人民所有的所有的文字符号都统一进行编码，于是制定了UNICODE标准字符集。 UNICODE 使用2个字节表示一个字符(unsigned shor int、WCHAR、_wchar_t、OLECHAR)。这下终于好啦，全世界任何一个地区的软件，可以不用修改地就能在另一个地区运行了。虽然我用 IE 浏览日本网站，显示出我不认识的日文文字，但至少不会是乱码了。UNICODE 的范围是 0x0000 - 0xFFFF 共6万多个字符，其中光汉字就占用了4万多个。嘿嘿，中国人赚大发了:0)
在Unicode里，所有的字符被一视同仁，汉字不再使用“两个扩展ASCII”，而是使用“1个Unicode”，也就是说，所有的文字都按一个字符来处理，它们都有一个唯一的Unicode码。

二、使用Unicode编码的好处

使用Unicode编码可以使您的工程同时支持多种语言，使您的工程国际化。
另外，Windows NT是使用Unicode进行开发的，整个系统都是基于Unicode的。如果调用一个API函数并给它传递一个ANSI（ASCII字符集以及由此派生并兼容的字符集，如：GB2312，通常称为ANSI字符集）字符串，那么系统首先要将字符串转换成Unicode，然后将Unicode字符串传递给操作系统。如果希望函数返回ANSI字符串，系统就会首先将Unicode字符串转换成ANSI字符串，然后将结果返回给您的应用程序。进行这些字符串的转换需要占用系统的时间和内存。如果用Unicode来开发应用程序，就能够使您的应用程序更加有效地运行。
下面例举几个字符的编码以简单演示ANSI和Unicode的区别：

字符
A
N
和

ANSI码
41H
4eH
cdbaH

Unicode码
0041H
004eH
548cH

三、在程序中使用各种字符集的方法

const char * p = "Hello"; //使用 ASCII 字符集

//使用 MBCS 字符集，由于 MBCS 完全兼容 ASCII，多数情况下我们并不严格区分

const char * p = "你好";

LPCSTR p = "Hello,你好"; // 意义同上

const WCHAR * p = L"Hello,你好"; // 使用 UNICODE 字符集

LPCOLESTR p = L"Hello,你好"; // 意义同上

// 如果预定义了_UNICODE，则表示使用UNICODE字符集；如果定义了_MBCS,则表示使用 MBCS

const TCHAR * p = _T("Hello,你好");

LPCTSTR p = _T("Hello,你好"); // 意义同上

在上面的例子中，T是非常有意思的一个符号（TCHAR、LPCTSTR、LPTSTR、_T()、_TEXT()...），它表示使用一种中间类型，既不明确表示使用 MBCS，也不明确表示使用 UNICODE。那到底使用哪种字符集那？嘿嘿......编译的时候决定吧。设置条件编译的方式是：VC6 中，"Project/Settings.../C/C++卡片 Preprocessor definitions" 中添加或修改 _MBCS、_UNICODE；VC.NET中，"项目/属性/配置属性/常规/字符集"然后用组合窗进行选择。使用 T 类型，是非常好的习惯，严重推荐！

四、VC++6.0中编写Unicode编码的应用程序

使用UNICODE的工程设置包括两种：UNICODE和_UNICODE，前者没有下划线，专门用于Windows头文件；后者有一个前缀下划线，专门用于C运行时头文件。换句话说，也就是在ANSI C++语言里面根据_UNICODE（有下划线）定义与否，各宏分别展开为Unicode或ANSI字符，在Windows里面根据UNICODE（无下划线）定义与否，各宏分别展开为Unicode或ANSI字符。实际使用中我们一般不加严格区分，同时定义_UNICODE和UNICODE，以实现 UNICODE版本编程。

在没有定义UNICODE和_UNICODE时，所有函数和类型都默认使用ANSI的版本；在定义了UNICODE和_UNICODE之后，所有的MFC 类和Windows API都变成了宽字节版本了。

附录：Unicode编码表

http://codex.wordpress.org.cn/index.php?title=Unicode%E7%BC%96%E7%A0%81%E8%A1%A8&diff=prev&oldid=64581

crury

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
字符编码基础

前段时间由VC6.0转VS2008碰到很多问题，大部分都是关于Unicode编码与ASCII编码转换造成的。在网上找了一篇文章，看了以后豁然开朗，现转载如下：一、从ASCII码到UNICODE 计算机发明后，为了在计算机中表示字符，人们制定了一种编码，叫ASCII码。ASCII码由一个字节中的7位(bit)表示，范围是0x00 - 0x7F 共128个字符。他们以为这128个数字就足够表示abcd...ABCD...1234 这些字符了。咳......说英语的人就是“笨”！后来他们突然发现，如果
复制链接

扫一扫

专栏目录