c++11 标准模板(STL)本地化库 - 平面类别 (std::codecvt)- 在字符编码间转换,包括 UTF-8、UTF-16、UTF-32 (三)

本地化库

本地环境设施包含字符分类和字符串校对、数值、货币及日期/时间格式化和分析,以及消息取得的国际化支持。本地环境设置控制流 I/O 、正则表达式库和 C++ 标准库的其他组件的行为。

平面类别

在字符编码间转换,包括 UTF-8、UTF-16、UTF-32

template<

    class InternT,
    class ExternT,
    class State

> class codecvt;

std::codecvt 封装字符串的转换,包括宽和多字节,从一种编码到另一种。通过 std::basic_fstream<CharT> 进行的所有 I/O 操作都使用流中感染的 std::codecvt<CharT, char, std::mbstate_t> 本地环境平面。

继承图

标准库提供以下独立(本地环境无关)特化:

定义于头文件 <locale>

std::codecvt<char, char, std::mbstate_t>恒等转换
std::codecvt<char16_t, char, std::mbstate_t>在 UTF-16 和 UTF-8 间转换 (C++11 起)(C++20 中弃用)
std::codecvt<char16_t, char8_t, std::mbstate_t>在 UTF-16 和 UTF-8 间转换 (C++20 起)
std::codecvt<char32_t, char, std::mbstate_t>在 UTF-32 和 UTF-8 间转换 (C++11 起)(C++20 中弃用)
std::codecvt<char32_t, char8_t, std::mbstate_t>在 UTF-32 和 UTF-8 间转换 (C++20 起)
std::codecvt<wchar_t, char, std::mbstate_t>在系统原生宽和单字节窄字符集间转换

另外, C++ 程序中构造每个的 locale 对象实现其自身的四个特化的( locale 限定)版本。

成员类型

成员类型定义
intern_typeInternT
extern_typeExternT
state_typeState

调用 do_in & 从 externT 转换字符串为 internT ,如在从文件读取时

std::codecvt<InternT,ExternT,State>::in, 
std::codecvt<InternT,ExternT,State>::do_in
public:

result in( StateT& state,
           const ExternT* from,
           const ExternT* from_end,
           const ExternT*& from_next,
           InternT* to,
           InternT* to_end,

           InternT*& to_next ) const;
(1)
protected:

virtual result do_in( StateT& state,
                      const ExternT* from,
                      const ExternT* from_end,
                      const ExternT*& from_next,
                      InternT* to,
                      InternT* to_end,

                      InternT*& to_next ) const;
(2)

1) 公开成员函数,调用最终导出类的成员函数 do_in

2) 若此 codecvt 平面定义一个转换,则翻译来自源范围 [from, from_end) 的外部字符为内部字符,将结果置始于 to 的后继位置。不转换多于 from_end - from 个外部字符,不写入多于 to_end - to 个内部字符。令 from_nextto_next 指向最后成功转换元素的后一位置。

若此 codecvt 平面不定义转换,则不转换字符。设置 to_next 等于 to ,不更改 state ,并返回 std::codecvt_base::noconv 。

返回值

std::codecvt_base::result 类型值,按以下方式指示成功状况:

ok转换完成
partial输出缓冲区的中空间不足,或源缓冲的未期待结尾
error遇到无法转换的字符
noconv此平面为非转换,不写入输出

非转换特化 std::codecvt<char, char, std::mbstate_t> 始终返回 std::codecvt_base::noconv 。

注意

要求 from <= from_end && to <= to_end 且 state 要么表示初始迁移状态,要么以转换序列中前趋的字符获得。

state 上的效果是有意未指定的。标准平面中,它用于维护像是调用 std::mbsrtowcs 时的状态,从而被更新为反映最后被处理外部字符后的转换状态,但是用户定义平面可以自由地用它维护任何其他状态,例如计量遇到的特殊字符数。

调用示例

#include <iostream>
#include <string>
#include <locale>

int main()
{
    std::locale::global(std::locale("Chinese (Simplified)_China.936"));
    auto& use_facet = std::use_facet<std::codecvt<wchar_t, char, std::mbstate_t>>(std::locale());
    std::string external = "ABCDEFG";
    // 注意 wstring_convert 能进行下列内容
    std::mbstate_t mbstate_t = std::mbstate_t(); // 初始迁移状态
    std::wstring internal(external.size(), '\0');
    const char* from_next;
    wchar_t* to_next;
    use_facet.in(mbstate_t, &external[0], &external[external.size()], from_next,
                 &internal[0], &internal[internal.size()], to_next);
    // 为简略跳过错误检查
    internal.resize(to_next - &internal[0]);
    std::wcout << L"The string in wide encoding: " << internal << std::endl;

    return 0;
}

输出

The string in wide encoding: ABCDEFG

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值