c++11 标准模板（STL）本地化库 - 平面类别 - 在字符编码间转换，包括 UTF-8、UTF-16、UTF-32 （二）-CSDN博客

本文链接：https://blog.csdn.net/qq_40788199/article/details/137423364

本地化库

本地环境设施包含字符分类和字符串校对、数值、货币及日期/时间格式化和分析，以及消息取得的国际化支持。本地环境设置控制流 I/O 、正则表达式库和 C++ 标准库的其他组件的行为。

平面类别

在字符编码间转换，包括 UTF-8、UTF-16、UTF-32

std::codecvt

template<

class InternT,
class ExternT,
class State

> class codecvt;

类 std::codecvt 封装字符串的转换，包括宽和多字节，从一种编码到另一种。通过 std::basic_fstream<CharT> 进行的所有 I/O 操作都使用流中感染的 std::codecvt<CharT, char, std::mbstate_t> 本地环境平面。

继承图

标准库提供以下独立（本地环境无关）特化：

定义于头文件 `<locale>`
std::codecvt<char, char, std::mbstate_t>	恒等转换
std::codecvt<char16_t, char, std::mbstate_t>	在 UTF-16 和 UTF-8 间转换 (C++11 起)(C++20 中弃用)
std::codecvt<char16_t, char8_t, std::mbstate_t>	在 UTF-16 和 UTF-8 间转换 (C++20 起)
std::codecvt<char32_t, char, std::mbstate_t>	在 UTF-32 和 UTF-8 间转换 (C++11 起)(C++20 中弃用)
std::codecvt<char32_t, char8_t, std::mbstate_t>	在 UTF-32 和 UTF-8 间转换 (C++20 起)
std::codecvt<wchar_t, char, std::mbstate_t>	在系统原生宽和单字节窄字符集间转换

另外， C++ 程序中构造每个的 locale 对象实现其自身的四个特化的（ locale 限定）版本。

成员类型

成员类型	定义
`intern_type`	`InternT`
`extern_type`	`ExternT`
`state_type`	`State`

调用 do_out

从 internT 转换字符串为 externT 转换字符串，如在写入文件时

std::codecvt<InternT,ExternT,State>::out, 
std::codecvt<InternT,ExternT,State>::do_out

public: result out( StateT& state, const InternT* from, const InternT* from_end, const InternT& from_next, ExternT to, ExternT* to_end, ExternT*& to_next ) const;	(1)
protected: virtual result do_out( StateT& state, const InternT* from, const InternT* from_end, const InternT& from_next, ExternT to, ExternT* to_end, ExternT*& to_next ) const;	(2)

1) 公开成员函数，调用最终导出类的成员函数 do_out 。

2) 若此 codecvt 平面定义一个转换，则翻译来自源范围 [from, from_end) 的内部字符为外部字符，并将结果置于始于 to 的相继位置。不转换多于 from_end - from 个内部字符，不写入多于 to_end - to 个外部字符。令 from_next 和 to_next 指向最后成功转换元素的后一位置。

若此 codecvt 平面不定义转换，则不转换字符。设置 to_next 等于 to ，不更改 state ，并返回 std::codecvt_base::noconv 。

返回值

std::codecvt_base::result 类型值，按以下方式指示成功状况：

`ok`	转换完成
`partial`	输出缓冲区的中空间不足，或源缓冲的未期待结尾
`error`	遇到无法转换的字符
`noconv`	此平面为非转换，不写入输出

非转换特化 std::codecvt<char, char, std::mbstate_t> 始终返回 std::codecvt_base::noconv 。

注意

要求 from <= from_end && to <= to_end 且 state 要么表示初始迁移状态，要么以转换序列中前趋的字符获得。

尽管 codecvt 支持 N:M 转换（例如 UTF-16 到 UTF-8 ，其中可能需要二个初始字符决定输出的外部字符）， std::basic_filebuf 只能使用定义 1:N codecvt 转换的平面，即它在写入文件时必须能够一次处理一个内部字符。

进行 N:M 转换时，此函数可能在消耗所有源字符后（ from_next == from_end ）返回 std::codecvt_base::partial 。这表示需要其他内部字符完成转换（例如在转换 UTF-16 到 UTF-8 时，若源缓冲区中的末字符是高位代理）。

state 上的效果是有意未指定的。标准平面中，它用于维护像是调用 std::wcsrtombs 时的状态，从而被更新为反映最后被处理外部字符后的转换状态，但是用户定义平面可以自由地用它维护任何其他状态，例如计量遇到的特殊字符数。

调用示例

#include <iostream>
#include <string>
#include <locale>

int main()
{
    std::locale::global(std::locale("Chinese (Simplified)_China.936"));
    auto& use_facet = std::use_facet<std::codecvt<wchar_t, char, std::mbstate_t>>(std::locale());
    std::wstring internal = L"ABCDEFG"; //
    // 注意 wstring_convert 能做下列内容
    std::mbstate_t mb{}; // 初始迁移状态
    std::string external(internal.size() * use_facet.max_length(), '\0');
    const wchar_t* from_next = nullptr;
    char* to_next = nullptr;
    use_facet.out(mb, &internal[0], &internal[internal.size()], from_next,
                  &external[0], &external[external.size()], to_next);
    // 为简洁起见跳过错误检查
    external.resize(to_next - &external[0]);
    std::cout << "The string in narrow multibyte encoding: " << external << '\n';
}

输出

The string in narrow multibyte encoding: ABCDEFG