std::wstring_convert处理UTF8

#include <iostream>
#include <string>
#include <locale>
#include <codecvt>
#include <fstream>

int main(int argc, char *argv[])
{
   std::wstring str = L"123,我是谁?我爱钓鱼岛!";

   std::wstring_convert<std::codecvt_utf8<wchar_t>> conv;

   std::string narrowStr = conv.to_bytes(str);
   {
      std::ofstream ofs ("c:\\test.txt");
      ofs << narrowStr;
   }

   std::wstring wideStr = conv.from_bytes(narrowStr);
   {
      std::locale::global(std::locale("Chinese-simplified"));
      std::wofstream ofs (L"c:\\testW.txt");
      ofs << wideStr;
   }
}


http://zh.cppreference.com/w/cpp/locale/codecvt_utf8



以前一直以为标准库的wofstream只能输出MBCS编码的文本文件,今日接触到codecvt后,知道自己完全错了。

研究一上午后,得出以下成果(均为自己读MSDN及实验得出)。注:以下代码及说明以VS2010为准。

先说codecvt头文件(gcc里没找到),这是MSDN的解释:http://msdn.microsoft.com/zh-cn/library/ee292114.aspx

里面包含了三个类:codecvt_utf8codecvt_utf8_utf16codecvt_utf16,以及一个枚举类型codecvt_mode

codecvt是用于不同文字编码转换的一个类,codecvt_utfX继承了这个类,实现了不同编码转换的功能。

codecvt与locale结合使用,实现输出、读取UTF-8及UTF-16编码文本文件。

例如UTF-8:

#include <iostream>

#include <codecvt>

#include <fstream>

#include <string>

 

int main(void)

{

using namespace std;

auto LocUtf8=locale(locale(""),new codecvt_utf8<wchar_t>);

wofstream wfo(L"Hello.txt");

wfo.imbue(LocUtf8);

wfo << L"这是Utf-8编码的文本文件!";

wfo.close();

 

wifstream wfi(L"Hello.txt");

wstring wstr;

wfi.imbue(LocUtf8);

wfi >> wstr;

wcout.imbue(locale(""));

wcout << wstr << endl;

system("PAUSE");

}


static auto LocUtf8=locale(locale(""),new codecvt_utf8<wchar_t>);用codecvt_utf8实例化一个静态locale。codecvt_utf8<wchar_t>表示在输入输出时将wchar_t转换为UTF-8编码。至于new,与buffer类似不能析构,delete由locale自动管理。wfo.imbue(LocUtf8);表示wfo在输出文件时使用LocUtf8编码,wfi.imbue(LocUtf8)类似。注意不要使用locale::global,这样会影响到wcout。程序运行后会生成Hello.txt文件,其编码用记事本打开后点另存为,其默认编码为文件编码。
UTF-8是比较特殊的编码格式,识别不需bom。如果将上例的utf8直接改为utf16后运行也有结果,但用记事本打开乱码,UTF-16需要bom头用来识别编码格式。如下:

#include <iostream>

#include <codecvt>

#include <fstream>

#include <string>

 

int main(void)

{

using namespace std;

auto LocUtf16=locale(locale(""),new codecvt_utf16<wchar_t, 1114111UL, generate_header>);

wofstream wfo(L"Hello.txt");

wfo.imbue(LocUtf16);

wfo << L"这是Utf-16编码的文本文件!";

wfo.close();

 

wifstream wfi(L"Hello.txt");

wstring wstr;

wfi.imbue(LocUtf16);

wfi >> wstr;

wcout.imbue(locale(""));

wcout << wstr << endl;

system("PAUSE");

}

差别在这句:new codecvt_utf16<wchar_t, 0x10ffff, generate_header>。看看codecvt_utf16的定义:template< class Elem,          //需要转换的原编码格式,此为wchar_tunsigned long Maxcode = 0x10ffff,    //最大字符数,用处未知,照抄默认codecvt_mode Mode = (codecvt_mode)0 >  //一个codecvt_mode枚举类型class codecvt_utf16 : public std::codecvt<Elem, char, StateType>

再看codecvt_modeenum codecvt_mode {consume_header = 4,    //自动确认bom头,在读取文件时检查。但经过尝试后无效,可能我的用法有误(文字没进来,但多了个换行符)generate_header = 2,    //自动输出bom头,在输出文件时检查。little_endian = 1             //使用little endian编码(默认big endian,具体解释查看百科)};多个参数使用|(位或)连接,结果强制转换为codecvt_mode型。例如little endian编码+自动输出bom头的声明如下:new codecvt_utf16<wchar_t, 0x10ffff, codecvt_mode(generate_header | little_endian)>推荐使用默认的big endian编码,little endian输出的换行符是一个方框注意:big endian编码的文件不能用little endian,反之亦然。应该能使用consume_header自动识别,但测试无效。



`std::wstring_convert` 是 C++11 标准库中提供的一种工具,用于在宽字符串(`std::wstring`)和字节字符串(`std::string` 或字节向量)之间进行编码转换。使用这个类时,需要包含头文件 `<codecvt>`,然后可以创建一个 `std::wstring_convert` 对象,并传入一个编码转换器来执行转换操作。 以下是一个简单的例子,展示了如何使用 `std::wstring_convert` 进行编码转换: ```cpp #include <iostream> #include <string> #include <codecvt> #include <locale> int main() { // 假设我们有两个字符串,一个是宽字符串(以宽字符存储的字符串),另一个是字节字符串 std::wstring wideStr = L"你好,世界!"; // 使用前缀L表示宽字符串 std::string byteStr = "Hello, World!"; // 创建一个编码转换器,这里以UTF-8和UTF-16之间的转换为例 std::wstring_convert<std::codecvt_utf8_utf16<wchar_t>> converter; // 从UTF-16编码的宽字符串转换为UTF-8编码的字节字符串 std::string utf8Str = converter.to_bytes(wideStr); std::cout << "转换后的UTF-8字符串: " << utf8Str << std::endl; // 从UTF-8编码的字节字符串转换回UTF-16编码的宽字符串 std::wstring backToWideStr = converter.from_bytes(utf8Str); std::wcout << L"转回后的UTF-16字符串: " << backToWideStr << std::endl; return 0; } ``` 在上述代码中,我们首先包含了 `<codecvt>` 头文件,然后创建了一个 `std::wstring_convert` 的实例,并指定了 `std::codecvt_utf8_utf16<wchar_t>` 作为模板参数,这是一个能够处理 UTF-8 和 UTF-16 之间的转换的编码转换器。使用 `to_bytes` 方法将宽字符串转换为字节字符串,使用 `from_bytes` 方法将字节字符串转换回宽字符串。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值