大端小端,ascii,unicode,utf8,utf16,utf32,gb2312,gbk,gb18030等字符编码问题

最新推荐文章于 2022-07-15 16:57:41 发布

ztsinghua

最新推荐文章于 2022-07-15 16:57:41 发布

阅读量2.3k

点赞数

字符编码的问题让我困惑了好久的一段时间，其实简单的想，字符编码没有什么东西的，可是想真弄明白还是花去了我一点时间，前端时间写了一个简单的log程序，主要的工作就是支持系统运行时输出日志信息，同时允许定制不同级别的日志输出，刚开始的时候只是写入到文件中，可用过之后发现，只是写入到文件中，在进行系统调试的时候不是很方便，还要打开文件，浏览，再返回源代码，如果能够有一个界面展示岂不是更好，列表显示日志，可以选择显示的日志级别，实现日志输出位置的定位，类似下图中展示的一样：

感觉还是能方便一点的，而显示窗口的实现可以通过exe或者dll的方式，这就需要进行两个独立进程之间的通信，为了支持多个日志显示窗口，我要枚举现在打开的窗口比较窗口名，还要创建命名管道，比较管道名，不幸的是，log显示窗口系统用的是unicode编码，而在写日志主系统程序的时候用的却是多字节编码，在进行通信的时候总是出现这样那样的问题，同时为了使得log主系统可以在服务的主程序选用不同的字符编码方案的时候可以正常工作，费了点事情，因为当时对字符编码不了解，然后就去网上查了下，总结一下子，同时，为了使用方便，写了一个VAUTF8类实现UTF8编码方案，同时实现不同编码方案的转化。

这篇文章里主要阐述下面几个问题

1: 字符和字节的区别

2: Big Endian和Little Endian

3: ASCII

4: Unicode的定义

5: Unicode的编码方案

6: Unicode的实现方式

7: 一些名词解释

字符和字节的区别

字节(octet):是一个八位的存储单元，取值范围一定是0～255。

字符(character):为语言意义上的符号，范围不一定。例如在UCS-2中定义的字符范围为0～65535,一个字符占用两个字节。

Big Endian和Little Endian

上面提到了一个字符可能占用多个字节，那么这多个字节在计算机中如何存储呢？比如字符0xABCD，它的存储格式到底是 AB CD，还是 CD AB 呢？

实际上两者都有可能，并分别有不同的名字。如果存储为 AB CD，则称为Big Endian；如果存储为 CD AB，则称为Little Endian。

Big Endian:高字节在前,低字节在后

Little Endian:低字节在前,高字节在后

X86系统都是Little Endian的,也就是低字节在前,高字节在后.也就是低地址存储低位字节,高地址存储高位字节.

ASCII

ASCII使用数字32到 127来表示所有的英文字母，比如空格是32，字母"A"是65等等。使用7个比特就可以存储所有这样字符。那个时代的大多数计算机使用8个比特来，所以你不但可以存储全部的ASCII，而且还有一个比特可以多出来用作其他。如果你想，你可以把它用作你不可告人的目的。32以下的码字是不可打印的，它们属于控制字符，像7表示响铃，12表示打印机换纸。

标准中，对于低128个码字大家都无异议，差不多就是ASCII了，但对于高128个码字，根据你所在地的不同，会有不同的处理方式。我们称这样相异的编码系统为码页(code pages)。举个例子，比如在以色列发布的DOS中使用的码页是862，而在希腊使用的是737。它们的低128个完全相同，但从128往上，就有了很大差别。MS-DOS的国际版有很多这样的码页，涵盖了从英语到冰岛语各种语言，甚至还有一些"多语言"码页。但是还得说，如果想让希伯来语和希腊语在同一台计算机上和平共处，基本上没有可能。除非你自己写程序，程序中的显示部分直接使用位图。因为希伯来语对高128个码字的解释与希腊语压根不同。

在亚洲，更疯狂的事情正在上演。因为亚洲的字母系统中要上千个字母，8个比特无论如何也是满足不了的。一般的解决方案就是使用DBCS- "双字节字符集"，即有的字母使用一个字节来表示，有的使用两个字节。所以处理字符串时，指针移动到下一个字符比较容易，但移动到上一个字符就变得非常危险了。于是s++或s—不再被鼓励使用，相应的比如Windows下的AnsiNext和AnsiPrev被用来处理这种情况。

不少人依然坚信一个字节就是一个字符，一个字符就是8个比特。当然，如果你从来都没有试着把一个字符串从一台计算机移到另一台计算机，或者你不用说除英文以外的另一种语言，那么你的坚信不会出问题。但是互联网出现让字符串在计算机间移动变得非常普遍，于是所有的混乱都爆发了。非常幸运，Unicode适时而生。

Unicode的定义

Unicode是为整合全世界的所有语言文字而诞生的。任何文字在Unicode中都对应一个值，这个值称为代码点（code point）。代码点的值通常写成 U+ABCD 的格式。

一些人误以为Unicode只是简单的使用16比特的码字，也就是说每一个字符对应 16比特，总共可以表示65536个字符。这是完全不正确的。

在Unicode中，一个字母被映射到一个叫做码点(code point)的东西，这个码点可以看作一个纯粹的逻辑概念。至于码点(code point)如何在内存或磁盘中存储是另外的一个故事了。

码点(code point)的形式：U+0639

U+的意思就是"Unicode"，后面跟的数字是十六进制的。

事实上Unicode可以定义的字符数并没有上限，而且现在已经超过65536了。显然，并不是任何Unicode字符都可以用2个字节来表示了。

例如：Hello

在Unicode中，对应的码点(code point)如下：

U+0048 U+0065 U+006C U+006C U+006F

仅仅是一堆码点而已，或者说数字。不过到现在为止，我们还没有说这些码点究竟是如何存储到内存或如何表示在email信息中的

Unicode最早的编码想法，就是把每一个码点(code point)都存储在两个字节中，这也就导致了大多数人的误解。于是Hello就变成了：

00 48 00 65 00 6C 00 6C 00 6F

这样对吗？如下如何？

48 00 65 00 6C 00 6C 00 6F 00

技术上说，我相信这样是可以的。事实上，早期的实现者们的确想把Unicode的码点(code point)按照大端或小端两种方式存储，这样至少已经有两种存储Unicode的方法了。于是人们就必须使用FE FF作为每一个Unicode字符串的开头，我们称这个为Unicode Byte Order Mark。如果你互换了你的高位与低位，就变成了FF FE，这样读取这个字符串的程序就知道后面字节也需要互换了。可惜，不是每一个Unicode字符串都有字节序标记。

现在，看起来好像问题已经解决了，可是这帮程序员仍在抱怨。"看看这些零！"他们会这样说，因为他们是美国人，他们只看不会码点不会超过U+00FF的英文字母。同时他们也是California的嬉皮士，他们想节省一点。如果他们是得克萨斯人，可能他们就不会介意两倍的字节数。但是这样California节俭的人却无法忍受字符串所占空间翻倍。而且现在大堆的文档使用的是ANSI和DBCS字符集，谁去转换它们？于是这帮人选择忽略Unicode，继续自己的路，这显然让事情变得更糟。

Unicode的编码方式

Unicode的编码方式与ISO 10646的通用字符集（Universal Character Set，UCS）概念相对应，目前实际应用的Unicode版本对应于UCS-2，使用16位的编码空间。也就是每个字符占用2个字节。这样理论上一共最多可以表示2¹⁶即65536个字符。基本满足各种语言的使用。实际上目前版本的Unicode尚未填充满这16 位编码，保留了大量空间作为特殊使用或将来扩展。

上述16位Unicode字符构成基本多文种平面（Basic Multilingual Plane，简称BMP）。最新（但未实际广泛使用）的Unicode版本定义了16个辅助平面，两者合起来至少需要占据21位的编码空间，比3字节略少。但事实上辅助平面字符仍然占用4字节编码空间，与UCS-4保持一致。未来版本会扩充到ISO 10646-1实现级别3，即涵盖UCS-4的所有字符。UCS-4是一个更大的尚未填充完全的31位字符集，加上恒为0的首位，共需占据32位，即4字节。理论上最多能表示2³¹个字符，完全可以涵盖一切语言所用的符号。

BMP字符的Unicode编码表示为U+hhhh，其中每个h 代表一个十六进制数位。与UCS-2编码完全相同。对应的4字节UCS-4编码后两个字节一致，前两个字节的所有位均为0。

Unicode的实现方式: Unicode Translation Format（UTF）

Unicode的实现方式不同于编码方式。一个字符的Unicode编码是确定的。但是在实际传输过程中，由于不同系统平台的设计不一定一致，以及出于节省空间的目的，对Unicode编码的实现方式有所不同。Unicode的实现方式称为Unicode转换格式（Unicode Translation Format，简称为UTF）。

Unicode.org定义了百万个以上的字符，如果将所有的字符用统一的格式表示，需要的是4个字节。“a“的Unicode表示就会变成0x00000061，而“一“的Unicode值是0x00004E00。实际上，这就是UTF32，Linux操作系统上所使用的Unicode方案。而Windows平台下默认的Unicode编码方式为Little Endian的UTF-16。

UTF16

UTF-16由RFC2781规定，它使用两个字节来表示一个代码点。

不难猜到，UTF-16是完全对应于UCS-2的，即把UCS-2规定的代码点通过Big Endian或Little Endian方式直接保存下来。UTF-16包括三种：UTF-16，UTF-16BE（Big Endian），UTF-16LE（Little Endian）。

UTF-16BE和UTF-16LE不难理解，而UTF-16就需要通过在文件开头以名为BOM（Byte Order Mark）的字符来表明文件是Big Endian还是Little Endian。BOM为U+FEFF这个字符。

其实BOM是个小聪明的想法。由于UCS-2没有定义U+FFFE，因此只要出现 FF FE 或者 FE FF 这样的字节序列，就可以认为它是U+FEFF，并且可以判断出是Big Endian还是Little Endian。

举个例子。“ABC”这三个字符用各种方式编码后的结果如下：

Windows平台下默认的Unicode编码为Little Endian的UTF-16（即上述的 FF FE 41 00 42 00 43 00）。你可以打开记事本，写上ABC，然后保存，再用二进制编辑器看看它的编码结果。

UTF32

UTF-32用四个字节表示代码点，这样就可以完全表示UCS-4的所有代码点，而无需像UTF-16那样使用复杂的算法。与UTF-16类似，UTF-32也包括UTF-32、UTF-32BE、UTF-32LE三种编码，UTF-32也同样需要BOM字符。仅用'ABC'举例：

但是，仔细分析可以发现，其实绝大部分字符只使用2个字节就可以表示了。英文的Unicode范围是0x0000-0x007F，中文的Unicode范围是0x4E00-0x9F**，真正需要扩展到4个字节来表示的字符少之又少，所以有些系统直接使用2个字节来表示Unicode。比如Windows系统上，Unicode就是两个字节的。对于那些需要4个字节才能表示的字符，使用一种代理的手法来扩展(其实就是在低两个字节上做一个标记，表示这是一个代理，需要连接上随后的两个字节，才能组成一个字符)。这样的好处是大量的节约了存取空间，也提高了处理的速度。这种Unicode表示方法就是UTF16。一般在Windows平台上，提到Unicode,那就是指UTF16了。

UTF8

UTF-16和UTF-32的一个缺点就是它们固定使用两个或四个字节，这样在表示纯ASCII文件时会有很多00字节，造成浪费。而RFC3629定义的 UTF-8则解决了这个问题。UTF-8用1～4个字节来表示代码点。表示方式如下：

可见，ASCII字符（U+0000～U+007F）部分完全使用一个字节，避免了存储空间的浪费。而且UTF-8不再需要BOM字节。

另外，从上表中可以看出，单字节编码的第一字节为[00-7F]，双字节编码的第一字节为[C2-DF]，三字节编码的第一字节为[E0-EF]。这样只要看到第一个字节的范围就可以知道编码的字节数。这样也可以大大简化算法。

GB2312,GBK,GB18030

从ASCII、GB2312、GBK到GB18030，这些编码方法是向下兼容的，即同一个字符在这些方案中总是有相同的编码，后面的标准支持更多的字符。在这些编码中，英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为0。按照程序员的称呼，GB2312、GBK到GB18030都属于双字节字符集 (DBCS)。

在MS的IDE中我们可以看到这样一个选项

这里的Unicode一般就是指的UTF16，双字节宽字符，也就是wchar_t

而多字节字符集就是不确定使用的字节数的那种情况了……

一般在编写应用程序的时候，应该使用unicode字符编码方案，而在写文件的时候应该使用多字节字符编码方案，比较节省空间。

VAUTF8.h 
    
  
 
   1  
   #include  
   < 
   string 
   > 
   
  
   2  
     
   #define 
    MAX_LENGTH_VAUTF8 16384 
   
  
   3  
     
   namespace 
    nsVAUTF8
  
   4  
   {
  
   5  
   /// 
    字符编码模式 
   
  
   6  
     
   enum 
    eCharacterEncodingMode
  
   7  
   {
  
   8  
   UNDEFINED,
  
   9  
   ANSI,
  
   10  
   UTF8,
  
   11  
   UTF16LE,
  
   12  
   UTF16BE,
  
   13  
   UTF32LE,
  
   14  
   UTF32BE
  
   15  
   };
  
   16  
   }
  
   17  
   
  
   18  
     
   extern 
   char 
    cUTF8Hdr[];
  
   19  
   extern 
   bool 
    UTF8_Unicode_Possible;
  
   20  
   
  
   21  
   int 
    UTF8CharLen( 
   char 
   in 
   );
  
   22  
   int 
    IsUTF8( 
   const 
   char 
   * 
    src, size_t max_source_len);
  
   23  
   void 
    utf8_EnableRealUnicode( 
   bool 
    bEnabled);
  
   24  
   bool 
    utf8_IsUnicodeEnabled();
  
   25  
   
  
   26  
   int 
    _stdcall UTF82WStr( 
   const 
   char 
   * 
    source,  
   char 
   * 
    dest,  
   int 
    max_len  
   = 
    MAX_LENGTH_VAUTF8);
  
   27  
   int 
    _stdcall UTF82WStr( 
   const 
   char 
   * 
    source,  
   char 
   ** 
    dest);
  
   28  
   
  
   29  
   int 
    _stdcall UTF82Str( 
   const 
   char 
   * 
    source,  
   char 
   * 
    dest,  
   int 
    max_len  
   = 
    MAX_LENGTH_VAUTF8);
  
   30  
   int 
    _stdcall UTF82Str( 
   const 
   char 
   * 
    source,  
   char 
   ** 
    dest);
  
   31  
   
  
   32  
   int 
    _stdcall WStr2UTF8( 
   const 
   char 
   * 
    source,  
   char 
   * 
    dest,  
   int 
    max_len  
   = 
    MAX_LENGTH_VAUTF8);
  
   33  
   int 
    _stdcall WStr2UTF8( 
   const 
    wchar_t 
   * 
    source,  
   char 
   * 
    dest,  
   int 
    max_len  
   = 
    MAX_LENGTH_VAUTF8);
  
   34  
   int 
    _stdcall WStr2UTF8( 
   const 
   char 
   * 
    source,  
   char 
   ** 
    dest);
  
   35  
   int 
    _stdcall WStr2UTF8( 
   const 
    wchar_t 
   * 
    source,  
   char 
   ** 
    dest);
  
   36  
   
  
   37  
   int 
    _stdcall Str2UTF8( 
   const 
   char 
   * 
    source,  
   char 
   * 
    dest,  
   int 
    max_len  
   = 
    MAX_LENGTH_VAUTF8);
  
   38  
   int 
    _stdcall Str2UTF8( 
   const 
   char 
   * 
    source,  
   char 
   ** 
    dest);
  
   39  
   
  
   40  
   int 
    _stdcall Str2WStr( 
   const 
   char 
   * 
    source,  
   char 
   * 
    dest,  
   int 
    max_len  
   = 
    MAX_LENGTH_VAUTF8);
  
   41  
   int 
    _stdcall Str2WStr( 
   const 
   char 
   * 
    source,  
   char 
   ** 
    dest);
  
   42  
   
  
   43  
   int 
    _stdcall WStr2Str( 
   const 
   char 
   * 
    source,  
   char 
   * 
    dest,  
   int 
    max_len  
   = 
    MAX_LENGTH_VAUTF8); 
  
   44  
   int 
    _stdcall WStr2Str( 
   const 
   char 
   * 
    source,  
   char 
   ** 
    dest);
  
   45  
   
  
   46  
   int 
    StringConvert( 
   const 
   char 
   * 
    source, nsVAUTF8::eCharacterEncodingMode source_format,
  
   47  
   char 
   ** 
    dest, nsVAUTF8::eCharacterEncodingMode dest_format);
  
   48  
   
  
   49  
   int 
    FromUTF8( 
   const 
   char 
   * 
    source, wchar_t 
   ** 
    dest);
  
   50  
   int 
    FromUTF8( 
   const 
   char 
   * 
    source,  
   char 
   ** 
    dest);
  
   51  
   
  
   52  
   int 
    ToUTF8( 
   const 
   char 
   * 
    source,  
   char 
   ** 
    dest);
  
   53  
   int 
    ToUTF8( 
   const 
    wchar_t 
   * 
    source,  
   char 
   ** 
    dest);
  
   54  
   
  
   55  
   typedef std:: 
   string 
    EncodingStirngA;
  
   56  
   typedef std::wstring EncodingStirngW;
  
   57  
   class 
    VAUTF8
  
   58  
   {
  
   59  
   private 
   :
  
   60  
   EncodingStirngA m_sANSI;
  
   61  
   EncodingStirngA m_sUTF8;
  
   62  
   EncodingStirngW m_sUNICODE;
  
   63  
   private 
   :
  
   64  
   void 
    Complete();
  
   65  
   public 
   :
  
   66  
   /// 
    构造函数 
   
  
   67  
   VAUTF8() {};
  
   68  
   virtual 
   ~ 
   VAUTF8(){}
  
   69  
   VAUTF8( 
   const 
   char 
   * 
    pSrc);
  
   70  
   VAUTF8( 
   const 
    wchar_t 
   * 
    pSrc);
  
   71  
   VAUTF8( 
   const 
   char 
   * 
    pSrc,  
   int 
    Encoding);
  
   72  
   VAUTF8( 
   const 
    EncodingStirngA 
   & 
    src);
  
   73  
   VAUTF8( 
   const 
    EncodingStirngW 
   & 
    src);
  
   74  
   
  
   75  
   // 
    拷贝构造函数 
   
  
   76  
   VAUTF8( 
   const 
    VAUTF8 
   & 
    other);
  
   77  
   VAUTF8 
   & 
   operator 
   = 
   ( 
   const 
    VAUTF8 
   & 
    rhs);
  
   78  
   
  
   79  
   operator 
    EncodingStirngA()  
   const 
    {  
   return 
    m_sANSI;}
  
   80  
   operator 
    EncodingStirngW()  
   const 
    {  
   return 
    m_sUNICODE;}
  
   81  
   const 
   char 
   * 
    UTF8()  
   const 
    {  
   return 
    m_sUTF8.c_str();}
  
   82  
   const 
    size_t Size()  
   const 
    {  
   return 
    m_sUTF8.size();}
  
   83  
   const 
   char 
   * 
    Str()  
   const 
    {  
   return 
    m_sANSI.c_str();}
  
   84  
   const 
    wchar_t 
   * 
    WStr()  
   const 
    {  
   return 
    m_sUNICODE.c_str();}
  
   85  
   
  
   86  
   // 
    如果定义了TCHAR,则可调用该方法 
   
  
   87  
   #ifdef _TCHAR_DEFINED
  
   88  
   const 
    TCHAR 
   * 
    TStr()  
   const 
    {
  
   89  
   #ifdef _UNICODE
  
   90  
   return 
    WStr();
  
   91  
   #else 
   
  
   92  
   return 
    Str();
  
   93  
   #endif 
   
  
   94  
   }
  
   95  
   #endif 
   
  
   96  
   }; 
  
 
    
  

VAUTF8.cpp 
    
  
 
   1  
   #include  
   " 
   VAUTF8.h 
   " 
   
  
   2  
   #include  
   < 
   windows.h 
   > 
    
  
   3  
   
  
   4  
   bool 
    UTF8_Unicode_Possible  
   = 
   true 
   ;
  
   5  
   char 
    cUTF8Hdr[]  
   = 
    {( 
   char 
   ) 
   0xEF 
   ,( 
   char 
   ) 
   0xBB 
   ,( 
   char 
   ) 
   0xBF 
   , 
   0 
   };
  
   6  
   
  
   7  
   int 
    UTF8CharLen( 
   char 
   in 
   )
  
   8  
   {
  
   9  
   unsigned  
   char 
    uin  
   = 
    (unsigned  
   char 
   ) 
   in 
   ;
  
   10  
   
  
   11  
   if 
    (uin  
   < 
   128 
   )
  
   12  
   return 
   1 
   ;
  
   13  
   
  
   14  
   if 
    (uin  
   < 
   192 
   )
  
   15  
   return 
   - 
   1 
   ;
  
   16  
   
  
   17  
   if 
    (uin  
   < 
   0xE0 
   )
  
   18  
   return 
   2 
   ;
  
   19  
   
  
   20  
   if 
    (uin  
   < 
   0xF0 
   )
  
   21  
   return 
   3 
   ;
  
   22  
   
  
   23  
   if 
    (uin  
   < 
   0xF8 
   )
  
   24  
   return 
   4 
   ;
  
   25  
   
  
   26  
   if 
    (uin  
   < 
   0xFC 
   )
  
   27  
   return 
   5 
   ;
  
   28  
   
  
   29  
   if 
    (uin  
   < 
   0xFE 
   )
  
   30  
   return 
   6 
   ;
  
   31  
   
  
   32  
   if 
    (uin  
   < 
   0xFF 
   )
  
   33  
   return 
   7 
   ;
  
   34  
   
  
   35  
   return 
   8 
   ;
  
   36  
   }
  
   37  
   int 
    IsUTF8( 
   const 
   char 
   * 
    src, size_t max_source_len)
  
   38  
   {
  
   39  
   if 
    (max_source_len  
   < 
   0 
   )
  
   40  
   return 
   0 
   ;
  
   41  
   
  
   42  
   if 
    (max_source_len  
   == 
   0 
   )
  
   43  
   return 
   1 
   ;
  
   44  
   
  
   45  
   while 
    ( 
   * 
   src  
   && 
    max_source_len 
   -- 
   )
  
   46  
   {
  
   47  
   int 
    bytes  
   = 
    UTF8CharLen( 
   * 
   src 
   ++ 
   );
  
   48  
   if 
    (bytes  
   < 
   0 
   )
  
   49  
   return 
   0 
   ;
  
   50  
   if 
    (static_cast 
   < 
   int 
   > 
   (max_source_len)  
   < 
   -- 
   bytes)
  
   51  
   return 
   0 
   ;
  
   52  
   while 
    (bytes 
   -- 
   ) {
  
   53  
   if 
    (( 
   * 
   src 
   ++ 
   & 
   0xC0 
   )  
   != 
   0x80 
   )
  
   54  
   return 
   0 
   ;
  
   55  
   }
  
   56  
   }
  
   57  
   
  
   58  
   return 
   1 
   ;
  
   59  
   }
  
   60  
   
  
   61  
   // 
   ===================================================================================================
  
   62  
   // 
    宽字节字符串转化为UTF8 
   
  
   63  
   int 
    _stdcall WStr2UTF8( 
   const 
   char 
   * 
    source,  
   char 
   ** 
    dest)
  
   64  
   {
  
   65  
   int 
    len  
   = 
   1 
   ;
  
   66  
   
  
   67  
   if 
    (source) 
  
   68  
   len  
   = 
    WStr2UTF8(source, NULL,  
   0 
   );
  
   69  
   
  
   70  
   * 
   dest  
   = 
    ( 
   char 
   * 
   )malloc(len);
  
   71  
   
  
   72  
   if 
    ( 
   ! 
   source) {
  
   73  
   * 
   dest  
   = 
   0 
   ;
  
   74  
   return 
   1 
   ;
  
   75  
   }
  
   76  
   
  
   77  
   return 
    WideCharToMultiByte(CP_UTF8,  
   0 
   , (LPCWSTR)source,  
   - 
   1 
   ,
  
   78  
   * 
   dest, len, NULL, NULL);
  
   79  
   }
  
   80  
   
  
   81  
   int 
    _stdcall WStr2UTF8( 
   const 
    wchar_t 
   * 
    source,  
   char 
   ** 
    dest)
  
   82  
   {
  
   83  
   return 
    WStr2UTF8(( 
   char 
   * 
   )source, dest);
  
   84  
   }
  
   85  
   
  
   86  
   int 
    _stdcall WStr2UTF8( 
   const 
   char 
   * 
    source,  
   char 
   * 
    dest,  
   int 
    max_len)
  
   87  
   {
  
   88  
   if 
    (dest) {
  
   89  
   if 
    (source 
   != 
   dest) {
  
   90  
   return 
    WideCharToMultiByte(CP_UTF8,  
   0 
   , 
  
   91  
   (LPCWSTR)source,  
   - 
   1 
   , dest, max_len, NULL, NULL);
  
   92  
   }  
   else 
    {
  
   93  
   int 
    dest_size  
   = 
    WStr2UTF8(source, NULL,  
   0 
   );
  
   94  
   
  
   95  
   char 
   * 
    cTemp  
   = 
    NULL;
  
   96  
   WStr2UTF8(source,  
   & 
   cTemp);
  
   97  
   strcpy_s(dest, max_len, cTemp);
  
   98  
   free(cTemp); 
  
   99  
   
  
   100  
   return 
    dest_size;
  
   101  
   }
  
   102  
   }  
   else 
    {
  
   103  
   return 
    WideCharToMultiByte(CP_UTF8, 
   0 
   ,(LPCWSTR)source, 
   - 
   1 
   ,NULL, 
   0 
   ,NULL,NULL);
  
   104  
   }
  
   105  
   
  
   106  
   return 
   0 
   ;
  
   107  
   }
  
   108  
   // 
   ===================================================================================================
  
   109  
   
  
   110  
   // 
   ===================================================================================================
  
   111  
   // 
    短字节字符串转化为宽字节字符串 
   
  
   112  
   int 
    _stdcall Str2WStr( 
   const 
   char 
   * 
    source,  
   char 
   * 
    dest,  
   int 
    max_len)
  
   113  
   {
  
   114  
   if 
    ( 
   ! 
   source) 
  
   115  
   {
  
   116  
   memset(dest,  
   0 
   ,  
   2 
   );
  
   117  
   return 
   2 
   ;
  
   118  
   }
  
   119  
   size_t source_len  
   = 
   1 
   + 
    strlen(source);
  
   120  
   
  
   121  
   if 
    (source 
   != 
   dest) 
  
   122  
   {
  
   123  
   if 
    ( 
   ! 
   dest) 
  
   124  
   return 
   2 
   * 
    MultiByteToWideChar(CP_THREAD_ACP,  
   0 
   , source,  
   - 
   1 
   , NULL,  
   0 
   ); 
  
   125  
   
  
   126  
   
  
   127  
   return 
   2 
   * 
   MultiByteToWideChar(CP_THREAD_ACP, 
   0 
   ,source, 
   - 
   1 
   ,(LPWSTR)dest,max_len 
   / 
   2 
   );
  
   128  
   } 
  
   129  
   else 
    
  
   130  
   {
  
   131  
   char 
   * 
    cTemp  
   = 
   new 
   char 
   [ 
   2 
   * 
    source_len];
  
   132  
   int 
    i  
   = 
   2 
   * 
   MultiByteToWideChar(CP_THREAD_ACP, 
   0 
   ,source, 
   - 
   1 
   ,(LPWSTR)cTemp,max_len 
   / 
   2 
   );
  
   133  
   memcpy(dest, cTemp, i);
  
   134  
   delete[] cTemp;
  
   135  
   return 
    i;
  
   136  
   }
  
   137  
   }
  
   138  
   
  
   139  
   int 
    _stdcall Str2WStr( 
   const 
   char 
   * 
    source,  
   char 
   ** 
    dest)
  
   140  
   {
  
   141  
   if 
    ( 
   ! 
   source) 
  
   142  
   {
  
   143  
   * 
   dest  
   = 
   new 
   char 
   [ 
   2 
   ];
  
   144  
   memset( 
   * 
   dest,  
   0 
   ,  
   2 
   );
  
   145  
   return 
   2 
   ;
  
   146  
   }
  
   147  
   int 
    dest_len  
   = 
    Str2WStr(source, NULL,  
   0 
   );
  
   148  
   * 
   dest  
   = 
    ( 
   char 
   * 
   )calloc( 
   1 
   , dest_len);
  
   149  
   return 
   2 
   * 
   MultiByteToWideChar(CP_THREAD_ACP, 
   0 
   ,source, 
   - 
   1 
   ,(LPWSTR) 
   * 
   dest,dest_len 
   / 
   2 
   );
  
   150  
   }
  
   151  
   // 
   ===================================================================================================
  
   152  
   
  
   153  
   
  
   154  
   // 
   ===================================================================================================
  
   155  
   // 
    宽字节字符串转化为短字节字符串 
   
  
   156  
   int 
    _stdcall WStr2Str( 
   const 
   char 
   * 
    source,  
   char 
   * 
    dest,  
   int 
    max_len)
  
   157  
   {
  
   158  
   int 
    len  
   = 
    WideCharToMultiByte(CP_THREAD_ACP,  
   0 
   , (LPCWSTR)source,  
   - 
   1 
   ,
  
   159  
   (LPSTR)dest, max_len, NULL, NULL);
  
   160  
   return 
    len;
  
   161  
   }
  
   162  
   
  
   163  
   int 
    _stdcall WStr2Str( 
   const 
   char 
   * 
    source,  
   char 
   ** 
    dest)
  
   164  
   {
  
   165  
   int 
    len  
   = 
   1 
   ;
  
   166  
   if 
    (source)
  
   167  
   len  
   = 
    WideCharToMultiByte(CP_THREAD_ACP, 
   0 
   ,(LPCWSTR)source, 
   - 
   1 
   ,NULL, 
   0 
   , 
   0 
   , 
   0 
   );
  
   168  
   * 
   dest  
   = 
    ( 
   char 
   * 
   )malloc(len);
  
   169  
   return 
    WideCharToMultiByte(CP_THREAD_ACP,  
   0 
   , (LPCWSTR)source,
  
   170  
   - 
   1 
   ,  
   * 
   dest, len,  
   0 
   ,  
   0 
   );
  
   171  
   }
  
   172  
   // 
   ===================================================================================================
  
   173  
   
  
   174  
   
  
   175  
   // 
   ===================================================================================================
  
   176  
   // 
    短字节字符串转化到UTF8字符串 
   
  
   177  
   int 
    _stdcall Str2UTF8( 
   const 
   char 
   * 
    source,  
   char 
   * 
    dest,  
   int 
    max_len)
  
   178  
   {
  
   179  
   if 
    ( 
   ! 
   source) 
  
   180  
   {
  
   181  
   * 
   dest  
   = 
   0 
   ;
  
   182  
   return 
   1 
   ;
  
   183  
   }
  
   184  
   
  
   185  
   if 
    (max_len  
   < 
   0 
   )
  
   186  
   return 
   0 
   ;
  
   187  
   
  
   188  
   int 
    temp_size;
  
   189  
   size_t source_len  
   = 
    strlen(source)  
   + 
   1 
   ;
  
   190  
   if 
    (UTF8_Unicode_Possible) 
  
   191  
   {
  
   192  
   temp_size  
   = 
    Str2WStr(source, ( 
   char 
   * 
   )NULL);
  
   193  
   }  
   else 
    {
  
   194  
   temp_size  
   = 
   1 
   + 
   ( 
   int 
   )strlen(source);
  
   195  
   }
  
   196  
   int 
    i;
  
   197  
   
  
   198  
   unsigned  
   short 
   * 
    temp  
   = 
   new 
    unsigned  
   short 
   [temp_size];
  
   199  
   
  
   200  
   if 
    (UTF8_Unicode_Possible) {
  
   201  
   ZeroMemory(temp, 
   sizeof 
   (unsigned  
   short 
   )  
   * 
    temp_size);
  
   202  
   
  
   203  
   if 
    (dest) {
  
   204  
   MultiByteToWideChar(CP_THREAD_ACP, 
   0 
   ,source, 
   - 
   1 
   ,(LPWSTR)temp,temp_size);
  
   205  
   i  
   = 
    WideCharToMultiByte(CP_UTF8, 
   0 
   ,(LPCWSTR)temp, 
   - 
   1 
   ,dest,max_len, 
   0 
   , 
   0 
   );
  
   206  
   delete[] temp;
  
   207  
   return 
    i;
  
   208  
   }  
   else 
    {
  
   209  
   MultiByteToWideChar(CP_THREAD_ACP, 
   0 
   ,source, 
   - 
   1 
   ,(LPWSTR)temp,temp_size);
  
   210  
   i  
   = 
    WideCharToMultiByte(CP_UTF8, 
   0 
   ,(LPCWSTR)temp, 
   - 
   1 
   , 
   0 
   , 
   0 
   , 
   0 
   , 
   0 
   );
  
   211  
   delete[] temp;
  
   212  
   return 
    i;
  
   213  
   }
  
   214  
   }  
   else 
    {
  
   215  
   delete[] temp;
  
   216  
   if 
    (dest) {
  
   217  
   if 
    (( 
   int 
   )source_len  
   < 
    max_len) 
  
   218  
   strcpy_s(dest, max_len, source);
  
   219  
   else 
    {
  
   220  
   strncpy_s(dest, max_len, source, max_len);
  
   221  
   dest[( 
   int 
   )max_len 
   - 
   1 
   ]  
   = 
   0 
   ;
  
   222  
   }
  
   223  
   }
  
   224  
   return 
   1 
   + 
   ( 
   int 
   )strlen(source);
  
   225  
   }
  
   226  
   
  
   227  
   }
  
   228  
   
  
   229  
   int 
    _stdcall Str2UTF8( 
   const 
   char 
   * 
    source,  
   char 
   ** 
    dest)
  
   230  
   {
  
   231  
   if 
    ( 
   ! 
   dest)
  
   232  
   return 
   - 
   1 
   ;
  
   233  
   
  
   234  
   if 
    ( 
   ! 
   source) {
  
   235  
   * 
   dest  
   = 
    ( 
   char 
   * 
   )calloc( 
   1 
   ,  
   1 
   );
  
   236  
   return 
   1 
   ;
  
   237  
   }
  
   238  
   
  
   239  
   if 
    (UTF8_Unicode_Possible) {
  
   240  
   unsigned  
   short 
   * 
    temp  
   = 
    NULL;
  
   241  
   Str2WStr(source, ( 
   char 
   ** 
   ) 
   & 
   temp);
  
   242  
   int 
    result  
   = 
    WStr2UTF8(( 
   char 
   * 
   )temp, dest);
  
   243  
   free(temp);
  
   244  
   return 
    result;
  
   245  
   }  
   else 
    {
  
   246  
   * 
   dest  
   = 
    _strdup(source);
  
   247  
   return 
    ( 
   int 
   )( 
   1 
   + 
   strlen(source));
  
   248  
   }
  
   249  
   }
  
   250  
   // 
   ===================================================================================================
  
   251  
   
  
   252  
   
  
   253  
   
  
   254  
   // 
   ===================================================================================================
  
   255  
   // 
    UTF8串转化到短字节字符串 
   
  
   256  
   int 
    _stdcall UTF82Str( 
   const 
   char 
   * 
    source,  
   char 
   ** 
    dest)
  
   257  
   {
  
   258  
   if 
    ( 
   ! 
   dest) {
  
   259  
   return 
   - 
   1 
   ;
  
   260  
   }
  
   261  
   
  
   262  
   if 
    ( 
   ! 
   source) {
  
   263  
   * 
   dest  
   = 
    ( 
   char 
   * 
   )calloc( 
   1 
   ,  
   1 
   ); 
  
   264  
   return 
   1 
   ;
  
   265  
   }
  
   266  
   
  
   267  
   unsigned  
   short 
   * 
    temp  
   = 
    NULL;
  
   268  
   
  
   269  
   if 
    (UTF8_Unicode_Possible) {
  
   270  
   UTF82WStr(source,( 
   char 
   ** 
   ) 
   & 
   temp);
  
   271  
   int 
    dest_len  
   = 
    WideCharToMultiByte(CP_THREAD_ACP, 
   0 
   ,(LPCWSTR)temp, 
   - 
   1 
   , 
   0 
   , 
   0 
   , 
   0 
   , 
   0 
   );
  
   272  
   
  
   273  
   if 
    (dest) {
  
   274  
   * 
   dest  
   = 
    ( 
   char 
   * 
   )calloc( 
   1 
   , dest_len);
  
   275  
   int 
    r  
   = 
    WideCharToMultiByte(CP_THREAD_ACP, 
   0 
   ,(LPCWSTR)temp, 
   - 
   1 
   , 
   * 
   dest,dest_len, 
   0 
   , 
   0 
   );
  
   276  
   free(temp);
  
   277  
   return 
    r;
  
   278  
   }  
   else 
    {
  
   279  
   int 
    r  
   = 
    WideCharToMultiByte(CP_THREAD_ACP, 
   0 
   ,(LPCWSTR)temp, 
   - 
   1 
   , 
   0 
   , 
   0 
   , 
   0 
   , 
   0 
   );
  
   280  
   free(temp);
  
   281  
   return 
    r;
  
   282  
   }
  
   283  
   }  
   else 
    {
  
   284  
   * 
   dest  
   = 
    _strdup(source);
  
   285  
   return 
    ( 
   int 
   )strlen( 
   * 
   dest) 
   + 
   1 
   ;
  
   286  
   }
  
   287  
   }
  
   288  
   
  
   289  
   int 
    _stdcall UTF82Str( 
   const 
   char 
   * 
    source,  
   char 
   * 
    dest,  
   int 
    max_len)
  
   290  
   {
  
   291  
   int 
    i;
  
   292  
   
  
   293  
   if 
    ( 
   ! 
   source) {
  
   294  
   if 
    (dest)
  
   295  
   * 
   dest  
   = 
   0 
   ;
  
   296  
   return 
   1 
   ;
  
   297  
   }
  
   298  
   
  
   299  
   unsigned  
   short 
   * 
    temp  
   = 
    NULL;
  
   300  
   
  
   301  
   if 
    (UTF8_Unicode_Possible) {
  
   302  
   UTF82WStr(source, ( 
   char 
   ** 
   ) 
   & 
   temp);
  
   303  
   if 
    (dest) {
  
   304  
   i  
   = 
    WideCharToMultiByte(CP_THREAD_ACP, 
   0 
   ,(LPCWSTR)temp, 
   - 
   1 
   ,dest,max_len, 
   0 
   , 
   0 
   );
  
   305  
   delete[] temp;
  
   306  
   return 
    i;
  
   307  
   }  
   else 
    {
  
   308  
   i  
   = 
    WideCharToMultiByte(CP_THREAD_ACP, 
   0 
   ,(LPCWSTR)temp, 
   - 
   1 
   , 
   0 
   , 
   0 
   , 
   0 
   , 
   0 
   );
  
   309  
   delete[] temp;
  
   310  
   return 
    i;
  
   311  
   }
  
   312  
   }  
   else 
    {
  
   313  
   delete[] temp;
  
   314  
   if 
    (dest) 
  
   315  
   strcpy_s(dest, max_len, source);
  
   316  
   
  
   317  
   return 
    ( 
   int 
   )strlen(source);
  
   318  
   }
  
   319  
   }
  
   320  
   // 
   ===================================================================================================
  
   321  
   
  
   322  
   // 
   ===================================================================================================
  
   323  
   // 
    UTF8串转化到宽字节字符串 
   
  
   324  
   int 
    _stdcall UTF82WStr( 
   const 
   char 
   * 
    source,  
   char 
   ** 
    dest)
  
   325  
   {
  
   326  
   size_t source_len  
   = 
    strlen(source)  
   + 
   1 
   ;
  
   327  
   int 
    dest_len  
   = 
   2 
   ;
  
   328  
   
  
   329  
   if 
    (source)
  
   330  
   dest_len  
   = 
   2 
   * 
    MultiByteToWideChar(CP_UTF8,  
   0 
   , source,  
   - 
   1 
   ,  
   0 
   ,  
   0 
   );
  
   331  
   
  
   332  
   if 
    (dest) {
  
   333  
   * 
   dest  
   = 
    ( 
   char 
   * 
   )malloc(dest_len);
  
   334  
   return 
   sizeof 
   (wchar_t) 
   * 
   MultiByteToWideChar(CP_UTF8,  
   0 
   , source,  
   - 
   1 
   ,
  
   335  
   (LPWSTR) 
   * 
   dest, dest_len  
   / 
   sizeof 
   (wchar_t));
  
   336  
   }  
   else 
    {
  
   337  
   return 
   sizeof 
   (wchar_t) 
   * 
   MultiByteToWideChar(CP_UTF8,  
   0 
   , source,  
   - 
   1 
   ,  
   0 
   ,  
   0 
   );
  
   338  
   }
  
   339  
   }
  
   340  
   
  
   341  
   
  
   342  
   int 
    _stdcall UTF82WStr( 
   const 
   char 
   * 
    source,  
   char 
   * 
    dest,  
   int 
    max_len)
  
   343  
   {
  
   344  
   int 
    i;
  
   345  
   
  
   346  
   if 
    ( 
   ! 
   source)
  
   347  
   return 
   0 
   ;
  
   348  
   
  
   349  
   size_t source_len  
   = 
    strlen(source)  
   + 
   1 
   ;
  
   350  
   
  
   351  
   if 
    (dest) {
  
   352  
   if 
    (source 
   != 
   dest) {
  
   353  
   return 
   sizeof 
   (wchar_t)  
   * 
    MultiByteToWideChar(CP_UTF8,  
   0 
   , source,  
   - 
   1 
   ,
  
   354  
   (LPWSTR)dest, max_len  
   / 
   sizeof 
   (wchar_t));
  
   355  
   }  
   else 
    {
  
   356  
   char 
   * 
    cTemp  
   = 
    ( 
   char 
   * 
   )malloc(UTF82WStr(source, NULL,  
   0 
   ));
  
   357  
   i  
   = 
   sizeof 
   (wchar_t)  
   * 
    MultiByteToWideChar(CP_UTF8,  
   0 
   , source, 
  
   358  
   - 
   1 
   , (LPWSTR)cTemp, max_len  
   / 
   sizeof 
   (wchar_t));
  
   359  
   memcpy(dest, cTemp, i);
  
   360  
   free(cTemp);
  
   361  
   return 
    i;
  
   362  
   }
  
   363  
   }  
   else 
    {
  
   364  
   return 
   2 
   * 
   MultiByteToWideChar(CP_UTF8, 
   0 
   ,source, 
   - 
   1 
   , 
   0 
   , 
   0 
   );
  
   365  
   }
  
   366  
   }
  
   367  
   
  
   368  
   // 
   =================================================================================================== 
   
  
   369  
   
  
   370  
   
  
   371  
   int 
    StringConvert(  
   const 
   char 
   * 
    source, nsVAUTF8::eCharacterEncodingMode source_format, 
   /* 
    int max_source_len, 
   */ 
   char 
   ** 
    dest, nsVAUTF8::eCharacterEncodingMode dest_format )
  
   372  
   {
  
   373  
   char 
   * 
    _source  
   = 
    ( 
   char 
   * 
   )source;
  
   374  
   switch 
    (source_format)
  
   375  
   {
  
   376  
   case 
    nsVAUTF8::ANSI:
  
   377  
   switch 
    (dest_format) {
  
   378  
   case 
    nsVAUTF8::ANSI:  
   * 
   dest  
   = 
    _strdup(_source);  
   break 
   ;
  
   379  
   case 
    nsVAUTF8::UTF8: Str2UTF8(_source, dest);  
   break 
   ;
  
   380  
   case 
    nsVAUTF8::UTF16LE: Str2WStr(_source, dest);  
   break 
   ;
  
   381  
   }
  
   382  
   break 
   ;
  
   383  
   case 
    nsVAUTF8::UTF8:
  
   384  
   switch 
    (dest_format) {
  
   385  
   case 
    nsVAUTF8::ANSI: UTF82Str(_source, dest);  
   break 
   ;
  
   386  
   case 
    nsVAUTF8::UTF8:  
   * 
   dest  
   = 
    _strdup(_source);  
   break 
   ;
  
   387  
   case 
    nsVAUTF8::UTF16LE: UTF82WStr(_source, dest);  
   break 
   ;
  
   388  
   }
  
   389  
   break 
   ;
  
   390  
   case 
    nsVAUTF8::UTF16LE:
  
   391  
   switch 
    (dest_format) {
  
   392  
   case 
    nsVAUTF8::ANSI: 
  
   393  
   WStr2Str(_source, dest); 
  
   394  
   break 
   ;
  
   395  
   case 
    nsVAUTF8::UTF8: 
  
   396  
   WStr2UTF8(_source, dest); 
  
   397  
   break 
   ;
  
   398  
   case 
    nsVAUTF8::UTF16LE: 
  
   399  
   * 
   dest  
   = 
    ( 
   char 
   * 
   )_wcsdup((wchar_t 
   * 
   )_source); 
  
   400  
   break 
   ;
  
   401  
   }
  
   402  
   break 
   ;
  
   403  
   }
  
   404  
   return 
   1 
   ;
  
   405  
   }
  
   406  
   
  
   407  
   int 
    FromUTF8( 
   const 
   char 
   * 
    source, wchar_t 
   ** 
    dest)
  
   408  
   {
  
   409  
   return 
    StringConvert(source, nsVAUTF8::UTF8,
  
   410  
   ( 
   char 
   ** 
   )dest, nsVAUTF8::UTF16LE);
  
   411  
   }
  
   412  
   
  
   413  
   int 
    FromUTF8( 
   const 
   char 
   * 
    source,  
   char 
   ** 
    dest)
  
   414  
   {
  
   415  
   return 
    StringConvert(source, nsVAUTF8::UTF8,
  
   416  
   ( 
   char 
   ** 
   )dest, nsVAUTF8::ANSI);
  
   417  
   }
  
   418  
   
  
   419  
   int 
    ToUTF8( 
   const 
   char 
   * 
    source,  
   char 
   ** 
    dest)
  
   420  
   {
  
   421  
   return 
    StringConvert(source, nsVAUTF8::ANSI,
  
   422  
   ( 
   char 
   ** 
   )dest, nsVAUTF8::UTF8);
  
   423  
   }
  
   424  
   
  
   425  
   int 
    ToUTF8( 
   const 
    wchar_t 
   * 
    source,  
   char 
   ** 
    dest)
  
   426  
   {
  
   427  
   return 
    StringConvert(( 
   char 
   * 
   )source, nsVAUTF8::UTF16LE,
  
   428  
   ( 
   char 
   ** 
   )dest, nsVAUTF8::UTF8);
  
   429  
   }
  
   430  
   
  
   431  
   void 
    utf8_EnableRealUnicode(  
   bool 
    bEnabled )
  
   432  
   {
  
   433  
   UTF8_Unicode_Possible  
   = 
    bEnabled;
  
   434  
   }
  
   435  
   
  
   436  
   bool 
    utf8_IsUnicodeEnabled()
  
   437  
   {
  
   438  
   return 
    UTF8_Unicode_Possible;
  
   439  
   }
  
   440  
   VAUTF8::VAUTF8(  
   const 
   char 
   * 
    pSrc,  
   int 
    Encoding )
  
   441  
   {
  
   442  
   if 
    (pSrc)
  
   443  
   {
  
   444  
   if 
    (Encoding  
   == 
    nsVAUTF8::UTF8)
  
   445  
   {
  
   446  
   m_sUTF8  
   = 
    pSrc;
  
   447  
   }
  
   448  
   else 
   
  
   449  
   {
  
   450  
   m_sANSI  
   = 
    pSrc;
  
   451  
   }
  
   452  
   
  
   453  
   Complete();
  
   454  
   }
  
   455  
   
  
   456  
   }
  
   457  
   
  
   458  
   
  
   459  
   VAUTF8::VAUTF8(  
   const 
   char 
   * 
    pSrc )
  
   460  
   {
  
   461  
   if 
    (pSrc)
  
   462  
   {
  
   463  
   if 
    (IsUTF8(pSrc, strlen(pSrc)))
  
   464  
   {
  
   465  
   m_sUTF8  
   = 
    pSrc;
  
   466  
   }
  
   467  
   else 
   
  
   468  
   {
  
   469  
   m_sANSI  
   = 
    pSrc;
  
   470  
   }
  
   471  
   
  
   472  
   Complete();
  
   473  
   }
  
   474  
   }
  
   475  
   
  
   476  
   VAUTF8::VAUTF8(  
   const 
    wchar_t 
   * 
    pSrc )
  
   477  
   {
  
   478  
   if 
    (pSrc)
  
   479  
   {
  
   480  
   m_sUNICODE  
   = 
    pSrc;
  
   481  
   Complete();
  
   482  
   }
  
   483  
   }
  
   484  
   
  
   485  
   VAUTF8::VAUTF8(  
   const 
    EncodingStirngA 
   & 
    src )
  
   486  
   {
  
   487  
   if 
    (IsUTF8(src.c_str(), src.size()))
  
   488  
   {
  
   489  
   m_sUTF8  
   = 
    src;
  
   490  
   }
  
   491  
   else 
   
  
   492  
   {
  
   493  
   m_sANSI  
   = 
    src;
  
   494  
   }
  
   495  
   
  
   496  
   Complete();
  
   497  
   }
  
   498  
   
  
   499  
   
  
   500  
   VAUTF8::VAUTF8(  
   const 
    EncodingStirngW 
   & 
    src )
  
   501  
   {
  
   502  
   m_sUNICODE  
   = 
    src;
  
   503  
   Complete();
  
   504  
   }
  
   505  
   
  
   506  
   VAUTF8::VAUTF8(  
   const 
    VAUTF8 
   & 
    other )
  
   507  
   {
  
   508  
   * 
   this 
   = 
    other;
  
   509  
   }
  
   510  
   
  
   511  
   
  
   512  
   VAUTF8 
   & 
    VAUTF8:: 
   operator 
   = 
   ( 
   const 
    VAUTF8 
   & 
    rhs )
  
   513  
   {
  
   514  
   m_sUTF8  
   = 
    rhs.m_sUTF8;
  
   515  
   Complete();
  
   516  
   return 
   * 
   this 
   ;
  
   517  
   }
  
   518  
   
  
   519  
   void 
    VAUTF8::Complete()
  
   520  
   {
  
   521  
   char 
   * 
    p  
   = 
    NULL;
  
   522  
   
  
   523  
   if 
    ( 
   ! 
   m_sANSI.empty())
  
   524  
   {
  
   525  
   Str2UTF8(m_sANSI.c_str(),  
   & 
   p);
  
   526  
   m_sUTF8  
   = 
    p;
  
   527  
   free(p);
  
   528  
   
  
   529  
   Str2WStr(m_sANSI.c_str(),  
   & 
   p);
  
   530  
   m_sUNICODE  
   = 
    (wchar_t 
   * 
   )p;
  
   531  
   free(p);
  
   532  
   }
  
   533  
   else 
   
  
   534  
   {
  
   535  
   if 
    ( 
   ! 
   m_sUTF8.empty())
  
   536  
   {
  
   537  
   UTF82Str(( 
   char 
   * 
   )m_sUTF8.c_str(),  
   & 
   p);
  
   538  
   m_sANSI  
   = 
    p;
  
   539  
   free(p);
  
   540  
   
  
   541  
   UTF82WStr(( 
   char 
   * 
   )m_sUTF8.c_str(),  
   & 
   p);
  
   542  
   m_sUNICODE  
   = 
    (wchar_t 
   * 
   )p;
  
   543  
   free(p);
  
   544  
   }
  
   545  
   else 
   
  
   546  
   {
  
   547  
   if 
    ( 
   ! 
   m_sUNICODE.empty())
  
   548  
   {
  
   549  
   WStr2Str(( 
   char 
   * 
   )m_sUNICODE.c_str(),  
   & 
   p);
  
   550  
   m_sANSI  
   = 
    p;
  
   551  
   free(p);
  
   552  
   
  
   553  
   WStr2UTF8(( 
   char 
   * 
   )m_sUNICODE.c_str(),  
   & 
   p);
  
   554  
   m_sUTF8  
   = 
    p;
  
   555  
   free(p);
  
   556  
   }
  
   557  
   }
  
   558  
   }
  
   559  
   }
  
   560