本地化库
本地环境设施包含字符分类和字符串校对、数值、货币及日期/时间格式化和分析,以及消息取得的国际化支持。本地环境设置控制流 I/O 、正则表达式库和 C++ 标准库的其他组件的行为。
平面类别
在字符编码间转换,包括 UTF-8、UTF-16、UTF-32
std::codecvt
template< class InternT, |
类 std::codecvt 封装字符串的转换,包括宽和多字节,从一种编码到另一种。通过 std::basic_fstream<CharT> 进行的所有 I/O 操作都使用流中感染的 std::codecvt<CharT, char, std::mbstate_t> 本地环境平面。
继承图
标准库提供以下独立(本地环境无关)特化:
定义于头文件 | |
std::codecvt<char, char, std::mbstate_t> | 恒等转换 |
std::codecvt<char16_t, char, std::mbstate_t> | 在 UTF-16 和 UTF-8 间转换 (C++11 起)(C++20 中弃用) |
std::codecvt<char16_t, char8_t, std::mbstate_t> | 在 UTF-16 和 UTF-8 间转换 (C++20 起) |
std::codecvt<char32_t, char, std::mbstate_t> | 在 UTF-32 和 UTF-8 间转换 (C++11 起)(C++20 中弃用) |
std::codecvt<char32_t, char8_t, std::mbstate_t> | 在 UTF-32 和 UTF-8 间转换 (C++20 起) |
std::codecvt<wchar_t, char, std::mbstate_t> | 在系统原生宽和单字节窄字符集间转换 |
另外, C++ 程序中构造每个的 locale 对象实现其自身的四个特化的( locale 限定)版本。
成员类型
成员类型 | 定义 |
intern_type | InternT |
extern_type | ExternT |
state_type | State |
成员函数
(构造函数) | 构造新的 codecvt 平面 (公开成员函数) |
(析构函数) | 销毁 codecvt 平面 (受保护成员函数) |
out | 调用 do_out (公开成员函数) |
in | 调用 do_in (公开成员函数) |
unshift | 调用 do_unshift (公开成员函数) |
encoding | 调用 do_encoding (公开成员函数) |
always_noconv | 调用 do_always_noconv (公开成员函数) |
length | 调用 do_length (公开成员函数) |
max_length | 调用 do_max_length (公开成员函数) |
成员对象
成员名 | 类型 |
id [静态] | std::locale::id |
受保护成员函数
do_out [虚] | 从 internT 转换字符串为 externT 转换字符串,如在写入文件时 (虚受保护成员函数) |
do_in [虚] | 从 externT 转换字符串为 internT ,如在从文件读取时 (虚受保护成员函数) |
do_unshift [虚] | 为不完整转换生成 externT 字符的终止字符序列 (虚受保护成员函数) |
do_encoding [虚] | 返回产生一个 internT 字符所需的 externT 字符数,若此值为常数 (虚受保护成员函数) |
do_always_noconv [虚] | 测试平面编码是否对所有合法值为恒等转换 (虚受保护成员函数) |
do_length [虚] | 计算转换成给定的 internT 缓冲区会消耗的 externT 字符串长度 (虚受保护成员函数) |
do_max_length [虚] | 返回能转换成单个 internT 字符的最大 externT 字符数 (虚受保护成员函数) |
调用示例
#include <iostream>
#include <fstream>
#include <string>
#include <locale>
#include <iomanip>
#include <codecvt>
// 工具包装器,用于为 wstring/wbuffer 适配绑定到 locale 的平面
template<class Facet>
struct deletable_facet : Facet
{
template<class ...Args>
deletable_facet(Args&& ...args) : Facet(std::forward<Args>(args)...) {}
~deletable_facet() {}
};
int main()
{
// UTF-8 窄多字节编码
std::string strData = reinterpret_cast<const char*>("z\u00df\u6c34\U0001f34c");
std::ofstream("text.txt") << strData;
// 使用系统提供的本地环境的 codecvt 平面
std::wifstream fin("text.txt");
// 从 wifstream 的读取将使用 codecvt<wchar_t, char, mbstate_t>
// 此 locale 的 codecvt 从 UTF-8 转换到 UCS4 (在如 Linux 的系统上)
fin.imbue(std::locale("Chinese (Simplified)_China.936"));
std::cout << "The UTF-8 file contains the following Chinese (Simplified)_China.936 code points: "
<< std::endl;
for (wchar_t c; fin >> c;)
{
std::cout << "U+" << std::hex << std::setw(4) << std::setfill('0') << c << std::endl;
}
// 使用标准(本地环境无关) codecvt 平面
std::wstring_convert<deletable_facet<std::codecvt<char16_t, char, std::mbstate_t>>, char16_t> conv16;
std::u16string str16 = conv16.from_bytes(strData);
std::cout << "The UTF-8 file contains the following Chinese (Simplified)_China.936 code points: "
<< std::endl;
for (char16_t c : str16)
{
std::cout << "U+" << std::hex << std::setw(4) << std::setfill('0') << c << std::endl;
}
return 0;
}
输出
The UTF-8 file contains the following Chinese (Simplified)_China.936 code points:
U+007a
U+003f
U+6c34
U+003f
U+003f
The UTF-8 file contains the following Chinese (Simplified)_China.936 code points:
U+007a
U+003f
U+00cb
U+00ae
U+003f
U+003f