第8章 融入实际应用

8.1 对齐支持

#include <iostream>
using namespace std;
struct HowManyBytes{
    char     a;
    int      b;
};
int main() {
    cout << "sizeof(char): " << sizeof(char) << endl; // 1
    cout << "sizeof(int): " << sizeof(int) << endl; // 4
    cout << "sizeof(HowManyBytes): " << sizeof(HowManyBytes) << endl; // 8
    cout << endl;
    cout << "offset of char a: " << offsetof(HowManyBytes, a) << endl;	//0
    cout << "offset of int b: " << offsetof(HowManyBytes, b) << endl;	//4
    return 0;
}

其中 offsetof() 函数 查看成员的偏移。

alignof : 获取定义完整类型的内存对齐要求,不支持获取不完整类型或变量对齐值
alignas: 设置内存对齐值,但是内存对齐值有一定要求

    1. 设置值必须是2的幂
    1. 其次各平台拥有基准对齐值:std::max_align_t,alignas设置值不允许小于此值(想要设置可以通过#pragma pack(n)或aligns、__declspec(align(#)))
    1. 而大于基准对齐值的则称为扩展对齐,扩展对齐也受平台限制,溢出后认为该程序是不规范的。
    1. 同一个变量的内存对齐值设置要求一致。

alignof 示例:

#include <iostream>
using namespace std;
class InComplete;
struct Completed{};
int main(){
    int a;
    long long b;
    auto & c = b;
    char d[1024];
    // 对内置类型和完整类型使用alignof
    cout << alignof(int) << endl          //   4
        << alignof(Completed) << endl;   //   1
        // 对变量、引用或者数组使用alignof
    cout << alignof(a) << endl             //   4
        << alignof(b) << endl              //   8
        << alignof(c) << endl             //  8
        << alignof(d) << endl;            //  1
    // 本句无法通过编译,Incomplete类型不完整
    // cout << alignof(Incomplete) << endl;
}

alignas 示例:

alignas(double) void f(); // 错误:alignas不能修饰函数
alignas(double) unsigned char c[sizeof(double)]; // 正确
extern unsigned char c[sizeof(double)];
alignas(float)
extern unsigned char c[sizeof(double)]; // 错误:不同对齐方式的变量定义

8.2 通用属性

8.2.1 编译器的通用属性

随着C++语言的演变和编译器的发展,人们常常发现C++的标准提供的语言能力不能完全满足要求,因此各大编译器厂商为了满足客户需求,设计出一系列语言扩展来扩展语法,比较常见的就是“属性”。

“属性”是作用于实体对象(函数、变量、类型等)的额外附加信息,不同的编译器有着不同的属性语法,如GNU:

      __attribute__ ((attribute-list))

而windows下采用:

    __declspec ( extended-decl-modifier )

8.2.2 C++11的通用属性

C++11也引入了通用属性,语法为:

[[attribute-list]]

可以作用于类型、变量、名称、代码块等。对于作用于声明的通用属性,既可以写在声明的起始处,也可以写在声明的标识符之后。而对于作用于整个语句的通用属性,则应该写在语句起始处。而出现在以上两种规则描述的位置之外的通用属性,作用于哪个实体跟编译器具体的实现有关。

1.noreturn
用于标识不会返回的函数的。与返回值为空有很大区别,noreturn标记的函数执行后,其后的语句并不会执行。

主要用于那些不会将控制流返回到调用函数的函数,如终止程序的函数,无限循环语句的函数,抛出异常的函数等。

 [[noreturn]] void abort(void) noexcept;
    void DoSomething1();
    void DoSomething2();
    [[ noreturn ]] void ThrowAway() {
        throw "expection"; // 控制流跳转到异常处理
    }
    void Func(){
        DoSomething1();
        ThrowAway();
        DoSomething2(); // 该函数不可到达
    }

当前noreturn的使用也需要注意,否则会引起未定义的行为

#include <iostream>
    using namespace std;
    [[ noreturn ]] void Func(int i){
        //当参数i的值为0时,该函数行为不可估计
        if (i < 0)
            throw "negative";
        else if (i > 0)
            throw "positive";
    }
    int main(){
    Func(0);
    cout << "Returned" << endl; // 可以执行
    return 1;					//发生崩溃
}

上述例子中因为函数Func中的条件语句有悬挂(else没有处理),所以当传入0时,并不会抛出异常终止程序,与noreturn的属性冲突,执行了12行代码,但是最终在return时发生异常崩溃。

2.carries_dependency
通用属性[[ carries_dependency ]]则跟并行情况下的编译器优化有关。事实上,[[carries_dependency]]主要是为了解决弱内存模型平台上使用memory_order_consume内存顺序枚举问题

8.3 unicode 支持

8.3.1 字符集、编码和unicode

  • 为了使二进制组合标识字符的方法在不同设计的计算机间通用,就迫切需要统一的字符编码方法。于是ASCII字符编码就出现了。
  • 在ANSI颁布的标准中,用7个二进制位标识字符,总共标识了128个不同的字符。但是随着计算机在全世界的普及,非字符构成的语言(如中文)也需要得到支持,所以在20世纪90年代ISO与unicode量大组织共同颁布了了能够唯一地表示各种语言中字符标准。unicode字符集总共定义了1114112个这样的码位,使用0到10FFFF的十六进制数唯一标识所有字符。
    比较常见的unicode编码方式有utf-8、utf-16、utf-32。
  • 以utf-8为例,采用了1-6字节的变长编码方式,英文通常用1字节标识,跟之前ASCII是兼容的。用3字节来标识中文。
  • 事实上Window内部采用utf-16的编码方式、Mac和linux采用了utf-8的编码方式。
  • 除了unicode编码方式之外,GB2312、Big5也是影响比较大的编码方式。GB2312作为国家颁布的简体中文标准,收入了6763个汉字和682个非汉字图形字符。BIG5是繁体中文俗称“大五码”

8.3.2 C++11中的unicode支持

在 C++98 中,为了支持 Unicode 字符,使用 wchar_t 类型来表示“宽字符”,但并没有严格规定位宽,而是让 wchar_t 的宽度由编译器实现,因此不同的编译器有着不同的实现方式,GNU C++ 规定 wchar_t 为 32 位,Visual C++ 规定为 16 位。由于 wchar_t 宽度没有一个统规定,导致使用 wchar_t 的代码在不同平台间移植时,可能出现问题。这一状况在 C++11 中得到了一定的改善,从此 Unicode 字符的存储有了统一类型:

char16_t 用于存储 UTF-16 编码的 Unicode 字符
char32_t 用于存储 UTF-32 编码的 Unicode 字符

char16_t 和 char32_t 的宽度由其名称可以看出 char16_t 为 16bits,char32_t 为 32bits。至于使用 UTF-8 编码的 Unicode 字符,C++11 还是使用了 8bits 宽度的 char 类型数组来表示

除了使用新类型 char16_t 与 char32_t 来表示 Unicode 字符,此外,C++11 还新增了三种前缀来定义不同编码的字符或字符串,新增前缀如下:

u8 表示 UTF-8 编码
u 表示 UTF-16 编码
U 表示 UTF-32 编码

C++98 中有两种定义字符或字符串的方式,一是直接使用单引号或双引号定义多字节字符或字符串,二是通过前缀 L 表示 wchar_t 类型的宽字符或字符串。至此,C++ 中共有 5 种定义字符或字符串的方式。

在书写 Unicode 字符时,C++11 规定可以使用 \u 加上 4 个十六进制数或者使用 \U 加上 8 个十六进制数的 Unicode 码值来表示一个 Unicode 字符,比如汉字’你’可以表示如下:

char16_t c = u’\u4f60’;
char32_t C = U’\U00004f60’;

前缀 u 表示使用 UTF-16 编码存储 Unicode 字符,U 使用 UTF-32 编码存储 Unicode 字符。

8.3.3 影响字符串正确处理的因素

  • 编辑器
  • 编译器
  • 输出环境

代码编辑器采用何种编码方式决定了字符串最初的编码,比如编辑器如果采用GBK,那么代码文件中的所有字符都是以GBK编码存储。当编译器处理字符串时,可以通过前缀来判断字符串的编码类型,如果目标编码与原编码不同,则编译器会进行转换,比如C++11中的前缀u8表示目标编码为UTF-8的字符,如果代码文件采用的是GBK,编译器按照UTF-8去解析字符串常量,则可能会出现错误。

//代码文件为GBK编码
#include <iomanip>
#include <iostream> 
using namespace std;

int main()
{
	const char* sTest = u8"你好";
	for(int i=0;sTest[i]!=0;++i)
	{
		cout<<setiosflags(ios::uppercase)<<hex<<(uint32_t)(uint8_t)sTest[i]<<" ";
	}
	return 0;
}
//编译选项:g++ -std=c++0x -finput-charset=utf-8 test.cpp

程序输出结果:C4 E3 BA C3。这个码值是GBK的码值,因为“你”的GBK码值是0xC4E3,“好”的GBK码值是0xBAC3。可见,编译器未成功地将GBK编码的“你好”转换为UTF-8的码值“你”(E4 BD A0)“好”(E5 A5 BD),原因是使用编译选项-finput-charset=utf-8指定代码文件编码为UTF-8,而实际上代码文件编码为GBK,导致编译器出现错误的认知。如果使用-finput-charset=gbk,那么编译器在编译时会将GBK编码的“你好”转换为UTF-8编码,正确输出E4 BD A0 E5 A5 BD。

代码编辑器和编译器这两个环节在处理字符串如果没有问题,那么最后就是显示环节。字符串的正确显示依赖于输出环境。C++ 输出流对象 cout 能够保证的是将数据以二进制输出到输出设备,但输出设备(比如 Linux Shell 或者 Windows console)是否能够支持特定的编码类型的输出,则取决于输出环境。比如 Linux 虚拟终端 XShell,配置终端编码类型为 GBK,则无法显示 UTF-8 编码的字符串。

一个字符串从定义到处理再到输出,涉及到编辑器、编译器和输出环境三个因素,正确的处理和显示需要三个因素的共同保障,每一个环节都不能出错。

当然如果想避开编辑器编码对字符串的影响,可以使用 Unicode 码值来定义字符串常量,参看如下代码:

//代码文件使用 GBK 编码
#include <iomanip>
#include <iostream> 
using namespace std;

int main()
{
	const char* sTest = u8"\u4F60\u597D"; //"你好"的 unicode 码值分别是 0x4F60 和 0x597D
	for(int i=0;sTest[i]!=0;++i)
	{
		cout<<setiosflags(ios::uppercase)<<hex<<(uint32_t)(uint8_t)sTest[i]<<" ";
	}
	return 0;
}
//编译选项:g++ -std=c++0x -finput-charset=utf-8 test.cpp

程序输出结果:E4 BD A0 E5 A5 BD。可见,即使不使用 UTF-8 编码表示字符串,程序仍然可以正确地以 UTF-8 编码输出“你好”的码值,所以直接书写 Unicode 码值来表示字符串是一种比较保险的做法,缺点是难以阅读。

8.3.4 Unicode 的库支持

C++11 在标准库中增加了一些 Unicode 编码转换的函数,开发人员可以使用库中的一些新增编码转换函数来完成各种 Unicode 编码间的转换,函数原型如下:

//多字节字符转换为UTF-16编码
size_t mbrtoc16 ( char16_t * pc16, const char * pmb, size_t max, mbstate_t * ps);
//UTF-16字符转换为多字节字符
size_t c16rtomb ( char * pmb, char16_t c16, mbstate_t * ps );
//多字节字符转换为UTF-32编码
size_t mbrtoc32 ( char32_t * pc32, const char * pmb, size_t max, mbstate_t * ps);
//UTF-32字符转换为多字节字符
size_t c32rtomb ( char * pmb, char32_t c32, mbstate_t * ps );

函数名称中 mb 表示 multi-byte(多字节),rto 表示 convert to(转换为),c16 表示 char16_t,了解这些,可以根据函数名称直观的理解它们的作用。下面给一下 UTF-16 字符串转换为多字节字符串(以 GBK 为例)的例子:

#include <uchar.h>
#include <string.h>
#include <locale>
#include <iomanip>
#include <iostream> 
using namespace std;
int main(){
	const char16_t* utf16 = u"\u4F60\u597D\u554A";
	size_t utf16Len=char_traits<char16_t>::length(utf16);	//字符数
	char* gbk =new char[utf16Len*2+1];
	memset(gbk,0, utf16Len * 2 + 1);
	char* pGbk = gbk;
	//目标多字节字符使用 GBK 编码
	setlocale(LC_ALL, "zh_CN.gbk");
	size_t length = 0;
	while (*utf16)
	{
		pGbk += length;
		length = c16rtomb(pGbk, *utf16, nullptr);
		if (length == 0)
		{
			//转换失败
			cout << "failed" << endl;
			break;
		}
		++utf16;
	}
	for (int i = 0; gbk[i] != 0; ++i)
	{
		cout << setiosflags(ios::uppercase) << hex << (uint32_t)(uint8_t)gbk[i] << " ";
	}
	return 0;
}
//编译选项:g++ -std=c++0x test.cpp

程序输出结果:C4 E3 BA C3 B0 A1。可见,使用 c16rtomb() 完成了将“你好啊”从 UTF-16 到 GBK 的转换。上面的转换,我们用到了 locale 机制。locale 表示的是一个地域的特征,包括字符编码、数字时间表示形式、货币符号等。locale 串使用 “zh_CN.gbk” 表示目标多字节字符串使用 GBK 编码。

上面通过 Unicode 字符的转换来完成字符串的转换,实际上 C++ 提供了一个类模板 codecvt 用于完成 Unicode 字符串与多字节字符串之间的转换,主要分为 4 种:

codecvt<char,char,mbstate_t>	 //performs no conversion
codecvt<wchar_t,char,mbstate_t>	 //converts between native wide and narrow character sets
codecvt<char16_t,char,mbstate_t> //converts between UTF16 and UTF8 encodings, since C++11
codecvt<char32_t,char,mbstate_t> //converts between UTF32 and UTF8 encodings,since C++11

上面的 codecvt 实际上是 locale 的一个 facet,facet 可以简单地理解为 locale 的一些接口。通过codecvt,可以完成当前 locale 下多字节编码字符串与 Unicode 字符间的转换,也包括 Unicode 字符编码间的转换。这里的多字节字符串不仅可以是 UTF8,也可以是 GBK 或者其它编码,实际依赖于 locale 所采用的编码方式。每种 codecvt 负责不同类型编码的转换,但是目前编译器的支持情况并没有那么完整,一种 locale 并不一定支持所有的 codecvt,程序员可以通过 has_facet 函数模板来查询指定 locale 下的支持情况。参考代码如下:

#include <locale>
#include <iostream> 
using namespace std;

int main()
{
	//定义一个 locale 并查询该 locale 是否支持一些 facet
	locale lc("zh_CN.gbk");
	bool can_cvt = has_facet<codecvt<char, char, mbstate_t>>(lc);
	if (!can_cvt)
		cout<<"do not support char-char facet"<<endl;
	can_cvt = has_facet<codecvt<wchar_t, char, mbstate_t>>(lc);
	if (!can_cvt)
		cout << "do not support wchar_t-char facet" << endl;
	can_cvt = has_facet<codecvt<char16_t, char, mbstate_t>>(lc);
	if (!can_cvt)
		cout << "do not support char16_t-char facet" << endl;
	can_cvt = has_facet<codecvt<char32_t, char, mbstate_t>>(lc);
	if (!can_cvt)
		cout << "do not support char32_t-char facet" << endl;
}
//编译选项:g++ -std=c++11 test.cpp
//g++版本:gcc version 4.8.5 20150623 (Red Hat 4.8.5-4) (GCC)

输出结果:

do not support char16_t-char facet
do not support char32_t-char facet

由此可见,从char到char16_t与char32_t转换的两种facet还没有被实验机使用的编译器支持。

假如实验机支持从 char 与 char16_t 的转换,可参考如下代码:

#include <uchar.h>
#include <string.h>
#include <locale>
#include <iomanip>
#include <iostream> 
using namespace std;

int main()
{
	typedef std::codecvt<char16_t,char,std::mbstate_t> facet_type;
	std::locale mylocale("zh_CN.gbk");
	
	try
	{
		const facet_type& myfacet = std::use_facet<facet_type>(mylocale);

		const char16_t* utf16 = u"\u4F60\u597D\u554A";		//你好啊
		size_t utf16Len = char_traits<char16_t>::length(utf16);
		cout<< utf16Len <<endl;
		char* gbk = new char[utf16Len*2+1];
		memset(gbk, 0, utf16Len * 2 + 1);
		std::mbstate_t mystate;								//转换状态
		const char16_t* pwc;								//from_next
		char* pc;											//to_next

		facet_type::result myresult = myfacet.out(mystate,utf16,utf16+utf16Len+1,pwc, gbk, gbk + utf16Len * 2+1, pc);

		if (myresult == facet_type::ok)
		{
			std::cout << "Translation successful:" << endl;
		}
		for (int i = 0; gbk[i] != 0; ++i)
		{
			cout << setiosflags(ios::uppercase) << hex << (uint32_t)(uint8_t)gbk[i] << " ";
		}
		delete[] gbk;
	}
	catch(...)
	{
		cout<<"do not support char16_t-char facet"<<endl;
		return -1;
	}
	return 0;
}

由于实验环境并不支持 char 与 char16_t 相互转换的 facet,所以程序输出结果为:do not support char16_t-char facet。

8.3.5 u16string 与 u32string

C++11 新增了 UTF-16 和 UTF-32 编码的字符类型 char16_t 和 char32_t,当然少不了对应的字符串类型,分别是 u16string 与 u32string,二者类似于 string 与 wstring。四者的定义如下:

typedef basic_string<char> string;
typedef basic_string<wchar_t> wstring;
typedef basic_string<char16_t> u16string;
typedef basic_string<char32_t> u32string;

我们对 string 与 wstring 应该比较熟悉,对于 u16string 与 u32string 在用法上是差不多了,有相同的成员接口与类型,只需要记住其存储的字符编码类型不同即可。下面看一下 u16string 使用的简单示例。


#include <iomanip>
#include <iostream> 
using namespace std;

int main()
{
	u16string u16str = u"\u4F60\u597D\u554A";	//你好啊
	cout << u16str.length() << endl;			//字符数	
	for (int i = 0; i<u16str.length(); ++i)
	{
		cout << setiosflags(ios::uppercase) << hex << (uint16_t)u16str[i] << " ";
	}
}

输出:

3
4F60 597D 554A

8.4 原生字符串字面量

C++11开始支持原生字符串字面量,语法是R"(string)".

#include <iostream>
int main()
{
	std::cout << "12345\t\n890" << std::endl;
	std::cout << R"(12345\t\n890)" << std::endl;
}
输出:
12345
890
12345\t\n890

而原生字符串字面值也可以添加前缀u,u8,U等表示字符编码内容:

	std::cout << uR"(12345\t\n890)" << std::endl;
	std::cout << UR"(12345\t\n890)" << std::endl;
	std::cout << u8R"(12345\t\n890)" << std::endl;

输出

006DEBE4
006DEB3C
12345\t\n890

  • 24
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值