- 博客(33)
- 收藏
- 关注
原创 单处理器瓶颈突围战:线程级并行如何重塑计算未来?
前面的文章中我们了解到处理器主频和深度指令级并行逐渐触及“功耗墙”和“性价比天花板”。数据级并行是解决该问题的一个方向,前面也花了几篇文章详细讨论了数据级并行的开发方式。但DLP并非灵丹妙药,不是所有场景下都适合用DLP进行加速。今天,我们就一起来看下解决单处理器瓶颈的另一个方向:线程级并行。
2025-12-07 08:39:09
716
原创 GPGPU 与向量架构终极对决:从硬件原理到编程范式的全维度解析
前面的文章中我们一起学习了三类利用DLP提升性能和能耗效率的架构:向量体系结构、SIMD指令集扩展和GPGPU,并且对前两者进行了对比。今天,我们一起来看下向量体系结构和GPGPU之间有哪些异同点。
2025-11-30 10:58:10
1006
原创 GPGPU 存储架构深度解析: “倒三角” 的秘密
今天,我们就一同揭开GPGPU存储系统的神秘面纱,探寻 “倒三角” 架构的设计智慧,看看寄存器、共享内存、缓存与全局显存如何各司其职、协同发力,成为并行计算背后最坚实的 “数据后盾”。
2025-11-23 11:43:57
1027
原创 从PTX到SASS:揭秘NVIDIA GPGPU数据并行的底层加速密码
前面的文章中我们一起学习了GPGPU中开发线程级并行的关键硬件机制--线程束调度,并且它对程序员透明。今天,我们一起来看下GPGPU是如何高效地开发数据级并行的?
2025-11-16 14:42:43
1093
原创 从 Pascal 架构到 SIMT 核心: GPGPU硬件加速的底层秘密解析
上一期我们拆解了CUDA线程的层次架构,搞懂了并行计算的组织框架,以及与硬件的映射关系。这一期,我们把目光投向硬件本身,GPGPU的核心硬件结构究竟藏着怎样的设计巧思?它又是如何撑起大规模并行数据运算的高效执行?今天就带大家一探究竟!
2025-11-09 13:52:30
941
原创 拆解 CUDA 线程架构:GPGPU 征服大规模数据的底层逻辑
而当我们把目光投向如今最受推崇的GPGPU时,一个关键问题自然浮现:明明最初GPU是为图像处理设计的,为何它能摇身一变,成为科学计算、AI 训练的"算力猛兽"?接下来,咱们就从最基础的线程结构划分开始,揭开GPGPU高效并行的秘密。
2025-11-02 14:30:36
908
原创 打破传统运算局限!一文读懂 SIMD 指令集扩展究竟是什么
而今天,我们要聚焦数据级并行的另一种"实用派"实现方案——SIMD 指令集扩展。其实你每天接触的场景里都有它的影子:图像处理时的像素计算、音视频编解码的快速渲染、甚至游戏里的实时特效,背后都藏着SIMD的"加速力"。接下来,我们就聊聊它有哪些独特特点、存在哪些设计取舍,以及工程师们当初为了适配多媒体场景,埋下了哪些巧思。
2025-10-26 09:29:33
893
原创 向量处理器性能狂飙的底层密码:数据并行优化四大核心技术拆解
之前咱们聊了向量体系架构的 “是什么”(特点、优势)和 “有什么”(基本组件),相信你已经对它有了初步认知。今天咱们深入 “怎么做”:带你看懂向量处理器的关键实现要点,搞懂性能优化的底层逻辑。
2025-10-19 09:29:56
1089
原创 突破指令级并行瓶颈,揭秘向量机如何让计算效率飙升
但处理器的性能突破从不是 “一条路走到黑”,今天咱们要聚焦的,正是另一项同样硬核、且专门应对 “海量数据运算” 的瓶颈破解技术 —— 向量体系结构。它到底怎么让大量数据 “一次指令多组运算”?又和之前聊的并行技术有啥本质区别?咱们今天一点点捋清楚
2025-10-13 21:16:59
1064
原创 处理器性能瓶颈如何突破?硬件多线程技术:从细粒度到 SMT 的全解析
而今天,我们要共同聚焦的,正是能帮处理器打破这一僵局的关键技术 ——硬件多线程技术。它如何通过并发调度多个线程掩盖长延迟、盘活闲置硬件资源?又有哪些主流实现方案?接下来我们就一步步拆解它的核心逻辑。
2025-10-06 10:23:37
822
原创 从 ILP 到 TLP/DLP:解码处理器架构的”功率墙突围战“与并行计算新方向
前面的几篇文章中我们一起学习了流水线、编译器优化、乱序执行、推测执行和多发射等技术,这些技术都可以提高程序的指令级并行度(ILP),降低处理器性能公式中的CPI指标。今天,我们将把视角从树木切换到森林,讨论指令级并行技术方向所面临的挑战。
2025-09-28 09:55:01
666
原创 突破 1CPI 极限!一文读懂多发射处理器的并行魔法
而今天,我们要解锁的是更具颠覆性的”并行魔法”,一项能让处理器传统流水线的CPI极限、在单个时钟周期内执行多条指令的技术,它就是多发射技术。
2025-09-21 10:15:08
680
原创 处理器黑科技:ROB 如何让指令推测执行 “有恃无恐“?
上篇文章的结尾,我们也指出了Tomasulo算法的致命缺陷:无法兼容分支预测、难以保证程序异常的语义。问题的本质在于Tomasulo算法无法取消掉指令对架构状态的影响。今天,我们就聚焦这一核心痛点,对基础Tomasulo算法进行针对性扩展,引入硬件推测执行技术。
2025-09-14 09:04:48
903
原创 计算机如何 “偷跑” 指令?揭秘动态调度中的Tomasulo 算法
实际运行场景往往更复杂,数据转发能力优先,意料之外的状况会让静态优化力不从心。那今天咱们就聚焦另一种解决数据冒险的核心策略 ——硬件动态调度技术,带大家一步步看懂Tomasulo 算法是如何让硬件灵活调序、减少停顿的完整执行过程。
2025-09-07 21:35:38
1105
原创 CPU如何预知未来?分支预测技术全解析
而今天,我们的视角要从软件静态优化正式转向硬件动态加速。接下下来几期,我会系统讲解通过硬件优化指令级并行的一系列技术。作为这一系列的开篇,咱们就先从硬件分支预测技术切入,一起看看它是如何精准减轻控制冒险对处理器性能的拖累,让指令执行更顺畅的。
2025-08-31 14:31:41
1106
原创 ILP开发指南:两种方式、三大挑战与静态优化利器
既然指令级并行能显著提升效率,那如何进一步挖掘潜力、提高并行度?在实际硬件与软件设计中,又会遇到哪些难以突破的现实挑战?接下来,我们将聚焦 ILP 开发的两种核心路径(静态与动态),并重点展开两种常用静态开发方式的详解。
2025-08-24 10:32:04
733
原创 指令流水线:处理器的 “并行魔法”,让计算效率翻多倍的秘密
我们将把目光投向处理器内部,深入探究对指令级并行影响最为关键的技术 —— 指令流水线,看看它究竟是如何运作的。
2025-08-17 10:18:29
1124
原创 存储器性能优化进阶:四大高级技巧,让数据访问快到飞起
我们将聚焦剩下的四种存储器层次结构性能优化核心高级技巧,带大家继续深挖存储器层次结构的性能潜力!
2025-07-27 11:08:34
1057
原创 存储器层次结构性能 “进阶秘籍”:7大高级优化策略深度解析
以存储器层次结构性能的量化公式为核心工具,带大家走进存储器层次结构性能优化的进阶领域,聊聊那些更具深度的高级策略。
2025-07-20 13:26:39
1212
原创 指令集体系结构的核心设计考量与测量数据
指令集体系结构在指令类别、存储器寻址、寻址方式、操作数类型和大小、指令操作、控制转移指令和指令编码这七方面的设计考虑,以及它们的测量数据
2025-05-25 11:29:46
1031
原创 学习笔记--Verilog HDL高级数字设计--第六章组合逻辑与时序逻辑的综合
组合逻辑与时序逻辑的综合综合引擎能够自动完成一组布尔函数的最简化,并将结果映射成能满足设计目标的硬件实现。(转换,优化,映射)本章将介绍如何编写易于综合的Verilog模型综合工具完成的工作:(1)检测并消除冗余项(2)查找组合反馈环路(3)利用无关紧要条件(4)检测出未使用状态(5)查找并消除等价状态(6)进行状态分配(7)在满足物理工艺的面积和/速度限制下,综合出最优多级逻...
2019-10-09 19:54:57
1748
原创 学习笔记--Verilog HDL高级数字设计--第五章用组合和时序逻辑的行为级别模型进行逻辑设计
学习笔记1--用组合和时序逻辑的行为级别模型进行逻辑设计行为建模行为级建模的数据类型组合逻辑的Verilog描述的对应形式触发器和锁存器的周期性行为模型数据流/寄存器传输级模型基于算法的模型插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的...
2019-10-05 21:25:32
1881
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅