C++ 工程实践(4):二进制兼容性

https://blog.csdn.net/Solstice/article/details/6233478

本文主要讨论 Linux x86/x86-64 平台,偶尔会举 Windows 作为反面教材。

C/C++ 的二进制兼容性 (binary compatibility) 有多重含义,本文主要在“头文件和库文件分别升级,可执行文件是否受影响”这个意义下讨论,我称之为 library (主要是 shared library,即动态链接库)的 ABI (application binary interface)。至于编译器与操作系统的 ABI 留给下一篇谈 C++ 标准与实践的文章。
什么是二进制兼容性

在解释这个定义之前,先看看 Unix/C 语言的一个历史问题:open() 的 flags 参数的取值。open(2) 函数的原型是

int open(const char *pathname, int flags);

其中 flags 的取值有三个: O_RDONLY,  O_WRONLY,  O_RDWR。

与一般人的直觉相反,这几个值不是按位或 (bitwise-OR) 的关系,即 O_RDONLY | O_WRONLY != O_RDWR。如果你想以读写方式打开文件,必须用 O_RDWR,而不能用 (O_RDONLY | O_WRONLY)。为什么?因为 O_RDONLY, O_WRONLY, O_RDWR 的值分别是 0, 1, 2。它们不满足按位或 。

那么为什么 C 语言从诞生到现在一直没有纠正这个不足之处?比方说把 O_RDONLY, O_WRONLY, O_RDWR 分别定义为 1, 2, 3,这样 O_RDONLY | O_WRONLY == O_RDWR,符合直觉。而且这三个值都是宏定义,也不需要修改现有的源代码,只需要改改系统的头文件就行了。

因为这么做会破坏二进制兼容性。对于已经编译好的可执行文件,它调用 open(2) 的参数是写死的,更改头文件并不能影响已经编译好的可执行文件。比方说这个可执行文件会调用 open(path, 1) 来写 文件,而在新规定中,这表示读 文件,程序就错乱了。

以上这个例子说明,如果以 shared library 方式提供函数库,那么头文件和库文件不能轻易修改,否则容易破坏已有的二进制可执行文件,或者其他用到这个 shared library 的 library。操作系统的 system call 可以看成 Kernel 与 User space 的 interface,kernel 在这个意义下也可以当成 shared library,你可以把内核从 2.6.30 升级到 2.6.35,而不需要重新编译所有用户态的程序。

所谓“二进制兼容性”指的就是在升级(也可能是 bug fix)库文件的时候,不必重新编译使用这个库的可执行文件或使用这个库的其他库文件,程序的功能不被破坏。

见 QT FAQ 的有关条款:http://developer.qt.nokia.com/faq/answer/you_frequently_say_that_you_cannot_add_this_or_that_feature_because_it_woul

在 Windows 下有恶名叫 DLL Hell,比如 MFC 有一堆 DLL,mfc40.dll, mfc42.dll, mfc71.dll, mfc80.dll, mfc90.dll,这是动态链接库的本质问题,怪不到 MFC 头上。
有哪些情况会破坏库的 ABI

到底如何判断一个改动是不是二进制兼容呢?这跟 C++ 的实现方式直接相关,虽然 C++ 标准没有规定 C++ 的 ABI,但是几乎所有主流平台都有明文或事实上的 ABI 标准。比方说 ARM 有 EABI,Intel Itanium 有 http://www.codesourcery.com/public/cxx-abi/abi.html ,x86-64 有仿 Itanium 的 ABI,SPARC 和 MIPS 也都有明文规定的 ABI,等等。x86 是个例外,它只有事实上的 ABI,比如 Windows 就是 Visual C++,Linux 是 G++(G++ 的 ABI 还有多个版本,目前最新的是 G++ 3.4 的版本),Intel 的 C++ 编译器也得按照 Visual C++ 或 G++ 的 ABI 来生成代码,否则就不能与系统其它部件兼容。

C++ ABI 的主要内容:

    函数参数传递的方式,比如 x86-64 用寄存器来传函数的前 4 个整数参数
    虚函数的调用方式,通常是 vptr/vtbl 然后用 vtbl[offset] 来调用
    struct 和 class 的内存布局,通过偏移量来访问数据成员
    name mangling
    RTTI 和异常处理的实现(以下本文不考虑异常处理)

C/C++ 通过头文件暴露出动态库的使用方法,这个“使用方法”主要是给编译器看的,编译器会据此生成二进制代码,然后在运行的时候通过装载器(loader)把可执行文件和动态库绑到一起。如何判断一个改动是不是二进制兼容,主要就是看头文件暴露的这份“使用说明”能否与新版本的动态库的实际使用方法兼容。因为新的库必然有新的头文件,但是现有的二进制可执行文件还是按旧的头文件来调用动态库。

这里举一些源代码兼容但是二进制代码不兼容例子

    给函数增加默认参数,现有的可执行文件无法传这个额外的参数。
    增加虚函数,会造成 vtbl 里的排列变化。(不要考虑“只在末尾增加”这种取巧行为,因为你的 class 可能已被继承。)
    增加默认模板类型参数,比方说 Foo 改为 Foo >,这会改变 name mangling
    改变 enum 的值,把 enum Color { Red = 3 }; 改为 Red = 4。这会造成错位。当然,由于 enum 自动排列取值,添加 enum 项也是不安全的,除非是在末尾添加。

给 class Bar 增加数据成员,造成 sizeof(Bar) 变大,以及内部数据成员的 offset 变化,这是不是安全的?通常不是安全的,但也有例外。

    如果客户代码里有 new Bar,那么肯定不安全,因为 new 的字节数不够装下新 Bar。相反,如果 library 通过 factory 返回 Bar* (并通过 factory 来销毁对象)或者直接返回 shared_ptr,客户端不需要用到 sizeof(Bar),那么可能是安全的。 同样的道理,直接定义 Bar bar; 对象(无论是函数局部对象还是作为其他 class 的成员)也有二进制兼容问题。
    如果客户代码里有 Bar* pBar; pBar->memberA = xx;,那么肯定不安全,因为 memberA 的新 Bar 的偏移可能会变。相反,如果只通过成员函数来访问对象的数据成员,客户端不需要用到 data member 的 offsets,那么可能是安全的。
    如果客户调用 pBar->setMemberA(xx); 而 Bar::setMemberA() 是个 inline function,那么肯定不安全,因为偏移量已经被 inline 到客户的二进制代码里了。如果 setMemberA() 是 outline function,其实现位于 shared library 中,会随着 Bar 的更新而更新,那么可能是安全的。

那么只使用 header-only 的库文件是不是安全呢?不一定。如果你的程序用了 boost 1.36.0,而你依赖的某个 library 在编译的时候用的是 1.33.1,那么你的程序和这个 library 就不能正常工作。因为 1.36.0 和 1.33.1 的 boost::function 的模板参数类型的个数不一样,其中一个多了 allocator。

这里有一份黑名单,列在这里的肯定是二级制不兼容,没有列出的也可能二进制不兼容,见 KDE 的文档:http://techbase.kde.org/Policies/Binary_Compatibility_Issues_With_C%2B%2B

 
哪些做法多半是安全的

前面我说“不能轻易修改”,暗示有些改动多半是安全的,这里有一份白名单,欢迎添加更多内容。

只要库改动不影响现有的可执行文件的二进制代码的正确性,那么就是安全的,我们可以先部署新的库,让现有的二进制程序受益。

    增加新的 class
    增加 non-virtual 成员函数
    修改数据成员的名称,因为生产的二进制代码是按偏移量来访问的,当然,这会造成源码级的不兼容。
    还有很多,不一一列举了。

欢迎补充
反面教材:COM

在 C++ 中以虚函数作为接口基本上就跟二进制兼容性说拜拜了。具体地说,以只包含虚函数的 class (称为 interface class)作为程序库的接口,这样的接口是僵硬的,一旦发布,无法修改。

比方说 M$ 的 COM,其 DirectX 和 MSXML 都以 COM 组件方式发布,我们来看看它的带版本接口 (versioned interfaces):

    IDirect3D7, IDirect3D8, IDirect3D9, ID3D10*, ID3D11*
    IXMLDOMDocument, IXMLDOMDocument2, IXMLDOMDocument3

话句话说,每次发布新版本都引入新的 interface class,而不是在现有的 interface 上做扩充。这样不能兼容现有的代码,强迫客户端代码也要改写。

回过头来看看 C 语言,C/Posix 这些年逐渐加入了很多新函数,同时,现有的代码不用修改也能运行得很好。如果要用这些新函数,直接用就行了,也基本不会修改已有的代码。相反,COM 里边要想用 IXMLDOMDocument3 的功能,就得把现有的代码从 IXMLDOMDocument 全部升级到 IXMLDOMDocument3,很讽刺吧。

tip:如果遇到鼓吹在 C++ 里使用面向接口编程的人,可以拿二进制兼容性考考他。
解决办法
采用静态链接

这个是王道。在分布式系统这,采用静态链接也带来部署上的好处,只要把可执行文件放到机器上就行运行,不用考虑它依赖的 libraries。目前 muduo 就是采用静态链接。
通过动态库的版本管理来控制兼容性

这需要非常小心检查每次改动的二进制兼容性并做好发布计划,比如 1.0.x 系列做到二进制兼容,1.1.x 系列做到二进制兼容,而 1.0.x 和 1.1.x 二进制不兼容。《程序员的自我修养》里边讲过 .so 文件的命名与二进制兼容性相关的话题,值得一读。
用 pimpl 技法,编译器防火墙

在头文件中只暴露 non-virtual 接口,并且 class 的大小固定为 sizeof(Impl*),这样可以随意更新库文件而不影响可执行文件。当然,这么做有多了一道间接性,可能有一定的性能损失。见 Exceptional C++ 有关条款和 C++ Coding Standards 101.
Java 是如何应对的

Java 实际上把 C/C++ 的 linking 这一步骤推迟到 class loading 的时候来做。就不存在“不能增加虚函数”,“不能修改 data member” 等问题。在 Java 里边用面向 interface 编程远比 C++ 更通用和自然,也没有上面提到的“僵硬的接口”问题。


 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: C++ 中可以使用 STL 库中的 atoi() 和 stoi() 函数将字符串转换为 int 值。 atoi() 函数可以将字符串转换为 int 值, 但它只能转换十进制字符串. stoi() 函数可以将字符串转换为 int 值, 并且可以支持各种进制,如十进制、八进制、十六进制。 如: ``` string str = "123"; int num = atoi(str.c_str()); cout << num << endl; string str2 = "0x11"; int num2 = stoi(str2, nullptr, 16); cout << num2 << endl; ``` 第一个输出为123,第二个输出为17 ### 回答2: 在C++中,可以使用内置的`stoi()`函数将字符串转换为int值,并兼容十进制和十六进制。`stoi()`函数接受一个字符串参数,并返回相应的int值。 要将十进制字符串转换为int值,可以直接调用`stoi()`函数,例如: ```cpp std::string decimalStr = "123"; int decimalInt = std::stoi(decimalStr); ``` 在这个示例中,`decimalStr`是要转换的十进制字符串,`decimalInt`是转换后的int值。 要将十六进制字符串转换为int值,需要在字符串前面加上"0x"前缀,以表示十六进制形式,例如: ```cpp std::string hexStr = "0x1A"; int hexInt = std::stoi(hexStr, nullptr, 16); ``` 在这个示例中,`hexStr`是要转换的十六进制字符串,`hexInt`是转换后的int值。`stoi()`函数的第三个参数为可选参数,用于指定进制,此处使用16表示十六进制。 需要注意的是,如果字符串不是有效的整数格式,或者超出了int类型的范围,将抛出`std::invalid_argument`或`std::out_of_range`异常。因此,在转换之前最好先进行有效性检查。 以上是将字符串转换为int值,兼容十进制和十六进制的方法。如果需要转换其他进制,可以通过更改`stoi()`函数的第三个参数来实现。 ### 回答3: 要将C++字符串转换为int值,并同时兼容不同进制(包括10进制和16进制),可以使用C++的内置函数和一些逻辑处理。下面是代码示例: ```cpp #include <iostream> #include <sstream> #include <string> int convertToInt(const std::string& str) { std::stringstream ss; int value = 0; if (str.substr(0, 2) == "0x") { ss << std::hex << str; // 如果字符串以0x开头,则按16进制处理 } else { ss << str; // 否则按10进制处理 } ss >> value; // 从字符串中提取整数值 return value; } int main() { std::string str1 = "12345"; // 10进制字符串 std::string str2 = "0x1F"; // 16进制字符串 int intValue1 = convertToInt(str1); int intValue2 = convertToInt(str2); std::cout << intValue1 << std::endl; // 输出:12345 std::cout << intValue2 << std::endl; // 输出:31 return 0; } ``` 上述代码中,我们使用了`std::stringstream`类来处理字符串转换。首先判断字符串的开头是否是"0x",如果是,则将其视为16进制字符串;否则将其视为10进制字符串。然后将字符串写入`std::stringstream`对象中,并使用`std::hex`标志设置为16进制。最后通过`<<`运算符提取整数值存储在变量`value`中。最终返回该值。 在`main`函数中,我们传入不同的字符串进行测试。字符串"12345"表示10进制,"0x1F"表示16进制。经过转换后,我们分别获得了相应的整数值,分别为12345和31,并将其输出到控制台上。 这种方法可以兼容不同进制的字符串转换为整数值,因为它根据字符串的开头来决定使用哪种进制进行转换。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值