NVIDIA CUDA初级教程视频 - 学习笔记（一）CPU体系架构概述

最新推荐文章于 2024-03-10 23:25:05 发布

Sylvia_zsh

最新推荐文章于 2024-03-10 23:25:05 发布

阅读量695

点赞数

分类专栏： CUDA

本文链接：https://blog.csdn.net/weixin_41703033/article/details/84873945

版权

4 篇文章 0 订阅

订阅专栏

一句话：CPU大量用于数据搬运而非数值运算，用流水线和分支提高效率

Q：什么是CPU?
A：是执行指令、处理数据的器件，用于完成基本的逻辑和算术指令，现在增加了复杂功能（内存接口、外部设备接口），包含大量晶体管（上百亿）

Q：什么是指令?
A：包括算术、访存、控制。对于一个编译好的程序，最优化目标：CPI（每条指令所需时钟周期：cycles/instruction）× 时钟周期（seconds/cycle）。这两个指标彼此并不独立

桌面应用多为轻量级进程，少量线程，有大量分支和交互操作，需要大量的存储器访问，而真正用于数值运算的指令很少（大量用于搬运数据，于是CPU不是计算机，而是是吞吐机、存储机）

摩尔定律：芯片的集成密度每2年翻一翻，且成本下降一半。但目前硅基芯片达到物理极限（量子效应明显）

流水线 Pipeline

旁路 Bypassing

停滞 Stalls

分支 Branches

分支预测 Branch Prediction

分支断定 Another option: Predication

提升 IPC

指令调度 Scheduling :

寄存器重命名 Register Renaming

乱序执行 Out-of-Order(OoO) Execution

重排指令，获得最大的吞吐率：Fetch → Decode → Rename → Dispatch → Issue → Register-Read → Execute → Memory → Writeback → Commit （调节顺序，用更合理的顺序做事情）
重排缓冲区Reorder Buffer (ROB)：记录所有执行中的指令状态
发射队列/调度器Issue Queue/Scheduler：选择下一条执行的指令

缓存 Caching

CPU内部的并行性

指令级并行 Instruction-Level (ILP) extraction ：超标量Superscalar、乱序执行Out-of-order（OoO）
数据级并行 Data-Level Parallelism (DLP) ：矢量计算Vectors （数据间没有相关性，可以同时运算）
线程级并行 Thread-Level Parallelism (TLP) ：同步多线程Simultaneous Multithreading (SMT) 、多核 Multicore

锁、一致性、同一性 Locks，Coherence，Consistency