计算机系统课程笔记总结 CSAPP第五章优化程序性能（5.1-5.14）

本文链接：https://blog.csdn.net/gzn00417/article/details/104236361

GitHub计算机系统CSAPP课程资源
计算机系统课程笔记总结 CSAPP第二章信息的表示和处理（2.1-2.2）
计算机系统课程笔记总结 CSAPP第二章信息的表示和处理（2.3-2.4）
计算机系统课程笔记总结 CSAPP第三章程序的机器级表示（3.2-3.4）
计算机系统课程笔记总结 CSAPP第三章程序的机器级表示（3.5-3.7）
计算机系统课程笔记总结 CSAPP第三章程序的机器级表示（3.8-3.10）
计算机系统课程笔记总结 CSAPP第四章处理器体系结构（4.1-4.3）
计算机系统课程笔记总结 CSAPP第五章优化程序性能（5.1-5.14）
计算机系统课程笔记总结 CSAPP第六章存储器层次结构（6.2-6.6）
计算机系统课程笔记总结 CSAPP第七章链接（7.1-7.13）
计算机系统课程笔记总结 CSAPP第八章异常控制流（8.0-8.1）
计算机系统课程笔记总结 CSAPP第八章异常控制流（8.2-8.4）
计算机系统课程笔记总结 CSAPP第九章虚拟存储器（9.1-9.5）
计算机系统课程笔记总结 CSAPP第九章虚拟存储器（9.6-9.10）

5.11.2.1 不要过分关心可预测的分支

5.11.2.2 书写适合用条件传送实现的代码

5.1 优化编译器的能力和局限性

更可靠（各种条件下的正确性、安全性）
可移植
更强大（功能）
更方便（安装、使用、帮助/导航、可维护）
更规范（格式符合编程规范、接口规范）
更易懂（能读明白、有注释、模块化—清晰简洁）
更正确（本课程重点！各种条件下）
更省（存储空间、运行空间）
更美（UI 交互）
更快（本课程重点！本章重点！）

对优化的控制：指定优化级别

-O1 （普通）
-O2 （被接受）
-O3

优化可能会使语言和编码风格变得混乱，降低程序的可读性和模块性，程序易出错，难以修改和扩展

两个指针可能指向同一个内存位置的情况称为内存别名使用
在只执行安全的优化中，编译器必须假设不同的指针可能指向内存中同一个位置

内联函数替换
- 将函数调用替换为函数体

5.2 表示程序性能

每元素的周期数（CPE）
- 表示程序性能
- eg.
  - 图像的像素
  - 矩阵中的元素
4GHz
- 表示处理器时钟运行频率为每秒4×109个周期
时钟周期
- 度量值表示执行了多少条指令

计算前置和

第二个函数使用：循环展开

每次迭代两个元素

性能比较：
- 斜率，表示每元素的周期数（CPE）的值

5.3 程序示例

5.4 消除循环的低效率

代码移动
- 减少计算执行的频率
  - 如果它总是产生相同的结果
  - 将代码从循环中移出
  - eg. strlen() 移除循环

复杂运算简化

用更简单的方法替换昂贵的操作
- 移位、加，替代乘法/除法
  - 16*x --> x << 4
- 实际效果依赖于机器
- 取决于乘法或除法指令的成本
  - Intel Nehalem CPU整数乘需要3个CPU周期
识别乘积的顺序（Recognize sequence of products）
- 识别产品（编译生成对的机器程序）的顺序

共享公用子表达式

重用表达式的一部分
GCC 使用 –O1 选项实现这个优化

5.5 减少过程调用

函数调用

程序行为中严重依赖执行环境的方面，程序员要编写容易优化的代码，以帮助编译器。
将字符串转换为小写的函数
平方级别的性能

提高性能
- 把调用 strlen 移到循环外
- 根据：从一次迭代到另一次迭代时结果不会变化
- ——代码移动的形式
为什么编译器不能将strlen从内层循环中移出呢?
- 函数可能有副作用
  - 例如：每次被调用都改变全局变量/状态
- 对于给定的参数，函数可能返回不同的值
  - 依赖于全局状态/变量的其他部分
  - 函数lower可能与 strlen 相互作用
- Warning:
  - 编译器将函数调用视为黑盒
  - 在函数附近进行弱优化
- 补救措施:
  - 使用 inline 内联函数
    - 用 –O1 时GCC这样做，但局限于单一文件之内
  - 程序员自己做代码移动

5.6 消除不必要的内存引用

数值需要从内存中读出，再写入，浪费内存引用时间

内存别名使用
- 两个不同的内存引用指向相同的位置
- C很容易发生
  - 因为允许做地址运算
  - 直接访问存储结构
- 编译器不知道函数什么时候被调用，会不会在别处修改了内存，特别是并行化后，改变顺序的优化等。
- 编译器保守的方法是不断的读和写内存，即使这样效率不高
- 养成引入局部变量的习惯
  - 在循环中累积——用寄存器别名替换
    - 用一个局部变量计算后再引用内存
  - 告诉编译器不要检查内存别名使用的方法