c++11 标准模板(STL)本地化库 - 平面类别 - 在字符编码间转换,包括 UTF-8、UTF-16、UTF-32

本地化库

本地环境设施包含字符分类和字符串校对、数值、货币及日期/时间格式化和分析,以及消息取得的国际化支持。本地环境设置控制流 I/O 、正则表达式库和 C++ 标准库的其他组件的行为。

平面类别

在字符编码间转换,包括 UTF-8、UTF-16、UTF-32

std::codecvt
template<

    class InternT,
    class ExternT,
    class State

> class codecvt;

std::codecvt 封装字符串的转换,包括宽和多字节,从一种编码到另一种。通过 std::basic_fstream<CharT> 进行的所有 I/O 操作都使用流中感染的 std::codecvt<CharT, char, std::mbstate_t> 本地环境平面。

继承图

标准库提供以下独立(本地环境无关)特化:

定义于头文件 <locale>

std::codecvt<char, char, std::mbstate_t>恒等转换
std::codecvt<char16_t, char, std::mbstate_t>在 UTF-16 和 UTF-8 间转换 (C++11 起)(C++20 中弃用)
std::codecvt<char16_t, char8_t, std::mbstate_t>在 UTF-16 和 UTF-8 间转换 (C++20 起)
std::codecvt<char32_t, char, std::mbstate_t>在 UTF-32 和 UTF-8 间转换 (C++11 起)(C++20 中弃用)
std::codecvt<char32_t, char8_t, std::mbstate_t>在 UTF-32 和 UTF-8 间转换 (C++20 起)
std::codecvt<wchar_t, char, std::mbstate_t>在系统原生宽和单字节窄字符集间转换

另外, C++ 程序中构造每个的 locale 对象实现其自身的四个特化的( locale 限定)版本。

成员类型

成员类型定义
intern_typeInternT
extern_typeExternT
state_typeState

成员函数

(构造函数)

构造新的 codecvt 平面
(公开成员函数)

(析构函数)

销毁 codecvt 平面
(受保护成员函数)

out

调用 do_out
(公开成员函数)

in

调用 do_in
(公开成员函数)

unshift

调用 do_unshift
(公开成员函数)

encoding

调用 do_encoding
(公开成员函数)

always_noconv

调用 do_always_noconv
(公开成员函数)

length

调用 do_length
(公开成员函数)

max_length

调用 do_max_length
(公开成员函数)

成员对象

成员名类型
id [静态]std::locale::id

受保护成员函数

do_out

[虚]

从 internT 转换字符串为 externT 转换字符串,如在写入文件时
(虚受保护成员函数)

do_in

[虚]

从 externT 转换字符串为 internT ,如在从文件读取时
(虚受保护成员函数)

do_unshift

[虚]

为不完整转换生成 externT 字符的终止字符序列
(虚受保护成员函数)

do_encoding

[虚]

返回产生一个 internT 字符所需的 externT 字符数,若此值为常数
(虚受保护成员函数)

do_always_noconv

[虚]

测试平面编码是否对所有合法值为恒等转换
(虚受保护成员函数)

do_length

[虚]

计算转换成给定的 internT 缓冲区会消耗的 externT 字符串长度
(虚受保护成员函数)

do_max_length

[虚]

返回能转换成单个 internT 字符的最大 externT 字符数
(虚受保护成员函数)

调用示例

#include <iostream>
#include <fstream>
#include <string>
#include <locale>
#include <iomanip>
#include <codecvt>

// 工具包装器,用于为 wstring/wbuffer 适配绑定到 locale 的平面
template<class Facet>
struct deletable_facet : Facet
{
    template<class ...Args>
    deletable_facet(Args&& ...args) : Facet(std::forward<Args>(args)...) {}
    ~deletable_facet() {}
};

int main()
{
    // UTF-8 窄多字节编码
    std::string strData = reinterpret_cast<const char*>("z\u00df\u6c34\U0001f34c");
    std::ofstream("text.txt") << strData;

    // 使用系统提供的本地环境的 codecvt 平面
    std::wifstream fin("text.txt");

    // 从 wifstream 的读取将使用 codecvt<wchar_t, char, mbstate_t>
    // 此 locale 的 codecvt 从 UTF-8 转换到 UCS4 (在如 Linux 的系统上)
    fin.imbue(std::locale("Chinese (Simplified)_China.936"));

    std::cout << "The UTF-8 file contains the following Chinese (Simplified)_China.936 code points: "
              << std::endl;
    for (wchar_t c; fin >> c;)
    {
        std::cout << "U+" << std::hex << std::setw(4) << std::setfill('0') << c << std::endl;
    }

    // 使用标准(本地环境无关) codecvt 平面
    std::wstring_convert<deletable_facet<std::codecvt<char16_t, char, std::mbstate_t>>, char16_t> conv16;
    std::u16string str16 = conv16.from_bytes(strData);
    std::cout << "The UTF-8 file contains the following Chinese (Simplified)_China.936 code points: "
              << std::endl;
    for (char16_t c : str16)
    {
        std::cout << "U+" << std::hex << std::setw(4) << std::setfill('0') << c << std::endl;
    }

    return 0;
}

输出

The UTF-8 file contains the following Chinese (Simplified)_China.936 code points:
U+007a
U+003f
U+6c34
U+003f
U+003f
The UTF-8 file contains the following Chinese (Simplified)_China.936 code points:
U+007a
U+003f
U+00cb
U+00ae
U+003f
U+003f

  • 25
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值