计算机组成原理与系统结构——性能问题

笔记内容及图片整理自XJTUSE “计算机组成原理与系统结构” 课程ppt,仅供学习交流使用,谢谢。

优化性能设计

微处理器速度

CPU/内存容量遵循摩尔定律,管道、分支预测、超标量、数据流分析、投机性执行均满足CPU速度,然而诸如主存的关键组件的速度严重滞后于CPU速度,降低了整体性能。

性能平衡

优化系统结构,平衡CPU、内存和I/O的整体性能,改善CPU和内存之间的接口。

1)增加一次检索的比特数

2)更改DRAM接口,让DRAM“更宽”而不是“更深”

3)降低内存访问频率,使用更复杂的高速缓存+芯片集成高速缓存

4)增加互连带宽,使用高速总线和分层总线

芯片组成与体系结构的改进

1)提高处理器硬件速度

2)增加高速缓存的大小和速度

3)改变处理器组织和体系结构,以提高指令执行的有效速度

多核、MICs和GPGPU

多核

多核指在同一芯片上使用多个处理器,这可以在不增加时钟速率的情况下提高性能。在芯片上使用多个更简单的处理器,而不是一个更复杂的处理器,这能保证空间更大的高速缓存。随着高速缓存空间越来越大,在芯片上创建两级和三级高速缓存在性能上是有意义的。

MICs集成众核

性能的飞跃以及开发利用如此大量内核的软件会面临挑战,多核和集成众核策略涉及在单个芯片上均匀收集通用处理器。

同构多核

处理器内的所有计算核心结构相同地位对等,须平衡若干处理器的负载并进行任务协调。

异构多核

通过配置不同特点的核心来优化处理器内部结构,实现性能最佳化,并有效降低功耗,一般采用“主处理器核+协处理器”架构,主处理器核用于控制及通用计算,协处理器核用于加速特定应用(例如通用 CPU+通用GPU),难点在于选哪些处理器核心进行搭配。

GPU图形处理单元

设计用于对图形数据执行并行操作的核心,用作需要重复计算的各种应用的矢量处理器。

GPU可以支持广泛的应用程序是GPGPU。

计算机性能的基本度量

时钟速度

处理器执行的操作由系统时钟控制,处理器的速度由系统时钟的脉冲频率决定,时钟速度是每秒运行的周期个数(Hz)。

处理器时间

处理器时间T是处理器执行给定程序所需的时间,受指令集架构、编译器技术、处理器实现和内存层次结构的影响。

T= 程序的CPU时钟周期*时钟周期τ = 程序的CPU时钟周期/时钟速率

T= CPI×IC×时钟周期τ = CPI×IC/时钟速率

CPI:每条指令的平均周期  IC:指令总数

指令执行速率

指令执行速率(MIPS速率)表示为每秒数百万条指令的数量。

CPI:每条指令的平均周期  IC:指令总数  f:系统时钟频率

基准测试和SPEC

基准测试原则

基准测试:使用相同程序集比较其在不同机器运行的执行时间以衡量系统性能。

原则

1)用高级语言编写,可以在不同的机器间移植

2)代表了特定类型的编程领域,诸如系统编程、数字编程等等

3)容易度量

4)分布广泛

SPEC基准测试

SPEC基准测试是SPEC行业联盟定义并维护的最著名的基准套件集合,其性能测试被广泛用于比较和研究,其中SPEC CPU2006是最著名的SPEC基准测试套件,它是适用于处理器密集型应用程序而非I/O的行业标准套件,由17个用C、C++和Fortran编写的浮点程序和12个用C和C编写的整数程序组成,测试包代码量超过了300万行。

Amdahl定律

使用更快模式的改进性能受限于更快模式的执行时间在总执行时间中所占比例的限制,也即性能的提高受到使用更快模式的频率的限制,它定义了使用改进结构可以获得的加速比。

To:改进前总时间  Tn:改进后总时间  Fe:加速部分  Se:整体  Sn:加速比

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值