c语言中123 u0010,C+11中字符串文字的Unicode编码

最新推荐文章于 2022-09-29 22:47:44 发布

椎名深雪

最新推荐文章于 2022-09-29 22:47:44 发布

阅读量562

点赞数

文章标签： c语言中123 u0010

C+11中字符串文字的Unicode编码

跟随相关问题，我想问一下C+11中的新字符和字符串文字类型。现在看来，我们有四种字符和五种字符串文字。字符类型：

char a = '\x30'; // character, no semantics

wchar_t b = L'\xFFEF'; // wide character, no semantics

char16_t c = u'\u00F6'; // 16-bit, assumed UTF16?

char32_t d = U'\U0010FFFF'; // 32-bit, assumed UCS-4

和字符串文字：

char A[] = "Hello\x0A"; // byte string, "narrow encoding"

wchar_t B[] = L"Hell\xF6\x0A"; // wide string, impl-def'd encoding

char16_t C[] = u"Hell\u00F6"; // (1)

char32_t D[] = U"Hell\U000000F6\U0010FFFF"; // (2)

auto E[] = u8"\u00F6\U0010FFFF"; // (3)

问题是：\x/\u/\U字符引用可与所有字符串类型自由组合？是否所有字符串类型都是固定宽度的，即数组包含的元素与文字中显示的元素相同，或者\x/\u/\U引用被扩展成一个可变的字节数？做u""和u8""字符串具有编码语义，例如，我可以说char16_t x[] = u"\U0010FFFF"，而非BMP码点被编码成两个单元的UTF 16序列？也同样适用于u8？在(1)中，我可以用\u？最后，是否有任何编码字符串函数(即它们是字符感知的，并且可以检测无效的字节序列)？

这是一个开放的问题，但我想尽可能完整地了解新的C+11的新UTF编码和类型工具。