C++并不支持Unicode,即使是utf8

时至今日,字符串使用unicode已经是不需要理由的常识,但对一些有着悠久历史的编程语言来说,这仍然是个头痛的问题。如果抛开第三方库的支持,C++其实并不能实际有效地支持unicode,即使是utf8。(注:本文讨论的是字符串在内存中的编码方案,而不是文件或网络数据流。)

STL的string模板诞生时,unicode还是理想中的固定16位编码。那时,Windows、Java等先后跨跃进unicode时代,而Unix/Linux受限于向后兼容而难以改变。那时Windows上的C++编程主要用用Win32 API,还不流行STL,而Unix/Linux上还基本不支持Unicode。STL的wstring,只是将char模板参数替换成wchar_t,看起来似乎完全合理,其实并没有经过实践检验。所以,Windows上的wstring至今一直处于实际上不可用的状态,各种IO时的编码转换都有问题;而Linux上的wchar_t是32位,太浪费内存所以完全不值得使用。(最新的标准针对unicode引入了char16_t和char32_t,以及u16string和u32string。)

为什么Linux上的wchar_t是32位呢?因为gcc开始支持宽字符的时候,大约也是unicode的字符集突破16位编码极限的时候。本来预期非常充足的码位,出乎意料的不够了,unicode不得不做出调整。调整后,有了三种可选的unicode编码:
    utf32:一个码位固定4字节,一个码位表示一个字符编码。
    utf16:兼容之前的16位编码,一个码位2字节,但1或2个码位表示一个字符编码。
    utf8:兼容ASCII编码,一个码位1字节,但1到6个码位表示一个字符编码。(现行标准其实要求最多4个码位,但出于保障兼容性的原因,5、6个码位的情况是可能出现的,即使这算无效编码。)
    (除此之外,还有字符组合和修饰符组合的情况,使得码位到字符的映射更加复杂,在此忽略。)
    
utf8的出现,让Linux系统发现了新的机会,既然兼容ASCII,那么只要系统的编码页新加一个utf8的,不就支持unicode了么。很自然的,Linux就走了这条路。而Windows却不支持utf8的编码页,这让很多写跨平台程序的人对微软很是不满。而后,更有人宣称,Windows、Java、.NET等选错了unicode编码,utf8才是王道。

我很希望字符编码有个完美的解决方案,但很可惜,每当我们试图让它变得简单,它就变得更加复杂。最基本的问题:一个utf8编码的char数组,只不过是一个字节buffer,在C/C++的标准库支持下,你根本无法把它当字符串来处理。想要字符串长度?它只能给你字节数,而不是字符数。想要取第n个字符?它只能给你第n个字节。想要把一个字符转大写?想判断一个字符是否是字母?它只接受char类型的字符,也就是说只支持ASCII字符……

即使说对一个不需要操作字符的程序,在C/C++程序里我们总是要为输入分配buffer的,那么预期输入n个字符的buffer,应该分配多少字节呢?没错,你只能按最大可能n*6+1来分配。对内存临时分配还好,要是一个数据库字段,你怎么办?这时即使是utf32都可能更省存储空间。

当然,绝大多数问题都可以通过使用一个第三方的unicode库来解决。如果觉得专门的unicode库太heavy,至少还有boost的日常解决方案,只要把所有字符串操作替换成专门的函数……(如果安全性对你的程序很重要,你还要了解所用函数在遇到无效编码时的行为,因为这也是黑客突破安全检查的一种手段。)

但是,大多数的程序员甚至并不清楚unicode编码,更不可能了解编码转换的复杂性,他们或者习惯了C风格的字节操作,或者来自Java等使用双字节unicode的语言,做着并非字处理的软件,所以对学习复杂的unicode编码系统并无太大兴趣。所以,utf8在C/C++里,更象是专家级的解决方案,而并非面向普通开发者。理想情况下,C++可以凭借其强大的抽象和封装能力,包装出一个真正基于字符访问的字符串类(Python3走了这条路,但有很多批评的声音),然而现实中则很难将其标准化。

那么Windows、Java、.NET、iOS等所使用的utf16呢?本质上,他们的支持都是有缺陷的。因为他们开始时支持的其实是utf16的前身UCS2,每个字符固定2字节,而当utf16出现后,就权当UCS2用,也就是说双码位4字节的字符(unicode里称作BMP以外的字符)会被当作两个字符处理。如果你的程序真的想要正确支持双码位的字符,就要改写程序,使用高级字符串函数来访问字符串,而不是直接用下标索引。只是因为BMP以外的字符极其罕用,其程序员并不急需了解这些细节。从正确性角度来说,这并不正确,但从实用角度来说,还算实用。
  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: C++中的std::string本质上是一个字符数组,它不包含字符编码信息。如果要将std::string转换为UTF-8编码的字符串,需要先确定std::string中存储的字符编码,然后进行相应的转换。 假设std::string中存储的是ASCII编码的字符串,可以直接将其转换为UTF-8编码的字符串,方法如下: ```c++ #include <string> #include <iostream> int main() { std::string str = "Hello, world!"; std::string utf8str; utf8str.reserve(str.size()); // 将ASCII编码的字符转换为UTF-8编码的字符 for (char c : str) { if (c < 0x80) { utf8str.push_back(c); } else { utf8str.push_back(0xc0 | (c >> 6)); utf8str.push_back(0x80 | (c & 0x3f)); } } std::cout << utf8str << std::endl; return 0; } ``` 如果std::string中存储的是其他字符编码,例如GB2312,需要先将其转换为Unicode编码,然后再将Unicode编码转换为UTF-8编码。可以使用第三方库,例如iconv库,进行编码转换。 ### 回答2: 在C语言中,将一个字符串转换为UTF-8编码需要使用一些字符处理的函数和方法。以下是一个简单的示例: ```c #include <stdio.h> #include <stdlib.h> #include <locale.h> #include <wchar.h> #include <string.h> int main() { setlocale(LC_ALL, ""); // 设置本地环境以支持宽字符输出 char* utf8Str = "你好,世界!"; // 假设要转换的字符串为UTF-8编码 wchar_t* wideStr = (wchar_t*)malloc(sizeof(wchar_t) * (strlen(utf8Str) + 1)); mbstowcs(wideStr, utf8Str, strlen(utf8Str) + 1); // 将UTF-8字符串转换为宽字符字符串 wprintf(L"Wide String: %ls\n", wideStr); // 输出宽字符字符串 free(wideStr); return 0; } ``` 以上代码中,我们先使用`setlocale`函数设置本地环境以支持宽字符输出。然后,我们声明一个UTF-8编码的字符串`utf8Str`。接下来,我们使用`mbstowcs`函数将UTF-8字符串转换为宽字符字符串`wideStr`,并分配了足够的内存。最后,我们使用`wprintf`函数输出宽字符字符串。 请注意,转换为UTF-8是根据输入字符串的编码格式而定的。如果输入字符串不是UTF-8编码,需要使用不同的方法来进行转换。 ### 回答3: 将C++字符串转换为UTF-8格式需要以下步骤: 1. 确保你的C++编译器支持UTF-8编码。 2. 在程序中引入相关的库,如:`<locale>`和`<codecvt>`。 3. 定义一个辅助函数,用于将C++字符串转换为UTF-8格式: ```cpp string convertToUTF8(const wstring& str) { wstring_convert<codecvt_utf8<wchar_t>> converter; return converter.to_bytes(str); } ``` 4. 使用上述函数将C++字符串转换为UTF-8格式: ```cpp string input = "你好"; wstring wideInput(input.begin(), input.end()); string utf8Input = convertToUTF8(wideInput); ``` 在上述代码中,我们首先将C++字符串转换为宽字符串(`wstring`),然后调用辅助函数将宽字符串转换为UTF-8格式的字符串。 请注意,以上方法适用于C++11及更高版本。如果你使用的是旧版本的C++,则可能需要其他方式来进行转换。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值