UTF-8编码实测

本文通过C++程序探讨UTF-8字符的二进制格式,关注于UTF-8编码的实践应用。在Ubuntu 12.04 32bit环境下,使用GCC 4.6.3,对汉字'一'的Unicode码0x4E00进行编码,揭示UTF-8的Big endian特性,并利用boost::locale库进行UTF-8到Unicode码的转换。
摘要由CSDN通过智能技术生成

本文打算用C++程序跟踪UTF-8字符的二进制格式。从实践上感受一下UTF-8的应用。

开发环境是UBuntu12.04 32bit OS. GCC 4.6.3,系统字节顺序是little endian.

如果有汉字‘一’,首先通过一个网站工具:http://rishida.net/tools/conversion/ 可以查到它的Unicode码是:0x4E00

用UTF-8对0x4E00进行编码后是:E4 B8 80,三字节。

下面的代码用来打印二进制码:

#include "test.h"
#include "util/endian.h"
#include "util/utf.h"
#include <iostream>

using namespace std;

int main(int argc, char ** argv) {
  // TEST(3 > 2);
  char const * p = "一";
  cout << PrintStringAsBinaryString(p) << endl;
  string str = "一";
  cout << PrintStringAsBinaryString(str) << endl;
  cout << IsLittleEndian() << endl;
}

utf.h中的两个函数实现代码:

#ifndef UTIL_UTF_H_
#define UTIL_UT
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值