计算机组成原理：并行存储器

原创已于 2025-10-04 10:23:37 修改 · 757 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#网络 #数据库 #计组 #计算机组成原理 #并行存储器

于 2025-09-16 10:45:43 首次发布

计算机组成原理专栏收录该内容

58 篇文章

订阅专栏

📌目录

🔀 并行存储器：突破存储带宽瓶颈的“高效架构”

🔀 并行存储器：突破存储带宽瓶颈的“高效架构”

随着CPU运算速度的飞速提升（主频达数GHz），传统单端口存储器的“串行访问”模式逐渐成为系统性能瓶颈——CPU每执行一条指令可能需要多次访问存储器，而单端口存储器同一时间仅能处理一个读写请求，导致CPU频繁处于“等待数据”的空闲状态。并行存储器通过“多端口并发访问”或“多模块交叉存储”的设计，将存储器的“串行操作”转化为“并行操作”，大幅提升存储带宽，弥合CPU与存储器之间的速度差距。本文将系统解析并行存储器的两大核心架构——双端口存储器和多模块交叉存储器，揭示其如何通过硬件并行化提升存储系统性能。

🔌 一、双端口存储器：“双路并发”的并行访问架构

双端口存储器（Dual-Port Memory）是最基础的并行存储器，其核心创新是在传统单端口存储器的基础上，增加一套独立的“地址线、数据线和控制信号线”，形成两个完全独立的访问端口（Port A和Port B）。两个端口可同时对存储器进行读写操作，实现“双路并发访问”，理论上存储带宽可提升至单端口存储器的2倍，适用于CPU与DMA控制器、双CPU等“多设备共享存储器”的场景。

（一）双端口存储器的核心结构

双端口存储器的本质是“单存储体+双套访问电路”，两个端口共享同一存储单元阵列，但拥有独立的地址译码器、读写控制电路和I/O缓冲器，结构如下：

共享存储体（Shared Memory Array）
- 功能：存储数据的核心区域，由大量存储单元（如SRAM的六管单元、DRAM的1T1C单元）按行列排列而成；
- 特点：两个端口访问的是同一套存储单元，即Port A写入的数据，Port B可立即读取，数据实时共享，无需额外数据同步机制。
独立访问端口（Port A & Port B）
每个端口包含一套完整的访问电路，可独立执行读写操作，互不干扰（无冲突时）：
- 地址线（A_Addr / B_Addr）：接收各自设备（如CPU、DMA）的地址信号，用于定位存储单元；
- 数据线（A_Data / B_Data）：传输数据，Port A和Port B的数据线相互独立，可同时输入或输出数据；
- 控制信号线（A_CS/A_RD/A_WR / B_CS/B_RD/B_WR）：
  - 片选信号（CS）：选择当前端口是否有效；
  - 读写信号（RD/WR）：控制端口执行读操作或写操作；
- 地址译码器：每个端口独立的译码器，将地址信号转换为存储体的行列选择信号，定位目标存储单元。
冲突检测与仲裁电路（Conflict Detection & Arbitration）
- 功能：当两个端口同时访问“同一存储单元”时，检测到冲突并进行仲裁，避免数据读写错误；
- 原理：实时对比Port A和Port B的地址信号，若地址相同且至少一个端口为写操作，则判定为冲突；
- 仲裁策略：通常采用“固定优先级”（如Port A优先级高于Port B，冲突时Port A优先执行，Port B等待）或“轮转优先级”（轮流优先，公平分配资源）。

（二）双端口存储器的工作模式

根据两个端口的操作类型（读/写），双端口存储器存在四种工作模式，其中三种无冲突，一种可能产生冲突：

工作模式	Port A操作	Port B操作	是否冲突	处理逻辑
模式1	读（不同地址）	读（不同地址）	无冲突	两个端口独立读取不同存储单元，并行执行
模式2	读（不同地址）	写（不同地址）	无冲突	Port A读、Port B写不同单元，并行执行
模式3	写（不同地址）	写（不同地址）	无冲突	两个端口独立写入不同单元，并行执行
模式4	读/写（同一地址）	读/写（同一地址）	可能冲突	冲突检测电路触发仲裁，高优先级端口先执行，低优先级端口等待一个周期

冲突场景示例：

Port A执行“写地址0x100，数据0x12”，同时Port B执行“读地址0x100”——地址相同且存在写操作，触发冲突；
仲裁电路判定Port A优先级更高，Port A先完成写操作（1个周期），Port B在下一个周期执行读操作，确保读取到最新写入的数据（0x12），避免“读旧数据”错误。

（三）双端口存储器的典型应用场景

双端口存储器的核心价值是“多设备高效共享存储资源”，无需通过CPU中转数据，减少数据拷贝延迟，典型应用包括：

CPU与DMA控制器共享存储器
DMA（直接存储器访问）控制器负责在存储器与外设（如硬盘、网卡）之间直接传输数据，无需CPU干预。通过双端口存储器，CPU和DMA可并行访问：
- Port A连接CPU：CPU执行指令，读取程序代码和运算数据；
- Port B连接DMA：DMA将外设数据写入存储器，或从存储器读取数据发送至外设；
- 优势：避免CPU因等待DMA传输而空闲，提升系统整体吞吐量（如磁盘读写时，CPU可同时执行其他计算任务）。
双CPU/多核处理器的共享内存
在双CPU服务器或多核处理器中，双端口存储器可作为两个核心的共享内存，实现低延迟数据交互：
- 核心1通过Port A写入共享数据（如任务队列、计算结果）；
- 核心2通过Port B读取共享数据，无需通过总线传输，减少数据交互延迟；
- 应用：分布式计算、实时数据处理等需要核心间频繁通信的场景。
外设与外设的数据直传
部分高端外设（如显卡、声卡）支持直接数据交互，通过双端口存储器可实现“外设-存储器-外设”的直传：
- 显卡通过Port A将渲染后的图像数据写入存储器；
- 声卡通过Port B从存储器读取图像关联的音频数据，同步输出音视频；
- 优势：无需CPU参与，降低CPU负载，提升音视频同步性能。

（四）双端口存储器的优缺点

优点：
- 并行访问效率高：无冲突时两个端口可同时读写，带宽翻倍；
- 数据共享实时性好：两个端口访问同一存储体，数据写入后立即可见，无需同步；
- 简化系统设计：多设备共享存储器时，无需额外设计数据中转逻辑（如CPU作为中介）。
缺点：
- 硬件成本高：需额外增加一套地址线、数据线和控制电路，芯片面积比单端口存储器增加30%~50%；
- 冲突时性能下降：同一地址并发访问时，低优先级端口需等待，实际带宽可能低于理论值（2倍）；
- 容量受限：受芯片面积限制，双端口存储器通常为小容量存储（如SRAM型双端口存储器，容量多为KB级至MB级），难以实现GB级大容量。

🔄 二、多模块交叉存储器：“流水线并行”的大容量存储架构

双端口存储器通过“多端口并发”提升效率，但受限于硬件成本和容量，难以满足计算机主存（GB级）的需求。多模块交叉存储器（Multi-Module Interleaved Memory） 采用“多个独立存储模块+交叉编址”的设计，将存储器分为多个并行工作的模块，通过“地址交叉分配”和“流水线访问”，使多个模块同时处理不同地址的读写请求，大幅提升大容量存储器的带宽，是现代计算机主存（DRAM）的主流架构。

（一）多模块交叉存储器的核心原理

多模块交叉存储器的核心思路是“将连续地址的数据分散存储到不同模块”，当CPU按连续地址访问数据（如数组、指令流）时，多个模块可并行执行读写操作，形成流水线，具体包括“交叉编址”和“流水线访问”两个关键技术。

1. 交叉编址：地址分散存储到多模块

传统存储器采用“顺序编址”——连续地址的数据存储在同一模块，导致连续访问时同一模块需串行处理所有请求（瓶颈明显）。交叉编址则将连续地址“轮流分配”给不同模块，使连续数据分散在多个模块中，具体分为“低位交叉编址”和“高位交叉编址”，其中低位交叉编址是主流（更适合连续访问）。

低位交叉编址（Low-Order Interleaving）：
地址的“低位”用于选择存储模块，“高位”用于选择模块内的存储单元，即：
- 模块号 = 地址 % 模块数（M）；
- 模块内地址 = 地址 / 模块数（M）；
- 示例：4个模块（M=4），地址0~7的分配如下：
  地址模块号（地址%4）模块内地址（地址/4）
  0 0 0
  1 1 0
  2 2 0
  3 3 0
  4 0 1
  5 1 1
  6 2 1
  7 3 1
可见，连续地址0_{3分别存储在模块0}3，地址4_{7再次循环分配给模块0}3，连续数据分散在不同模块。
高位交叉编址（High-Order Interleaving）：
地址的“高位”用于选择模块，“低位”用于选择模块内地址，即模块号=地址高位，模块内地址=地址低位。这种方式下，连续地址的数据存储在同一模块，仅适合随机访问，不适合连续访问，实际应用较少。

地址	模块号（地址%4）	模块内地址（地址/4）
0	0	0
1	1	0
2	2	0
3	3	0
4	0	1
5	1	1
6	2	1
7	3	1

2. 流水线访问：多模块并行处理连续请求

基于低位交叉编址，当CPU按连续地址访问数据时，多个模块可按“流水线”方式并行工作，每个模块在不同周期处理不同地址的请求，具体流程以“4个模块、每个模块访问周期为T”为例：

周期1：CPU发出地址0，模块0开始处理读请求（读取地址0数据）；
周期2：CPU发出地址1，模块1开始处理读请求（读取地址1数据），同时模块0完成地址0的读取，输出数据；
周期3：CPU发出地址2，模块2开始处理读请求，同时模块1完成地址1的读取，输出数据；
周期4：CPU发出地址3，模块3开始处理读请求，同时模块2完成地址2的读取，输出数据；
周期5：CPU发出地址4，模块0开始处理地址4的读请求（模块0已空闲），同时模块3完成地址3的读取，输出数据；

从周期2开始，每个周期都有一个模块输出数据，实现“每个周期完成一次数据访问”，等效访问周期从“T”缩短至“T/4”（4个模块时），带宽提升至单模块的4倍。

（二）多模块交叉存储器的结构组成

多模块交叉存储器由“M个独立存储模块”“地址分配电路”“数据缓冲与合并电路”组成，结构如下：

独立存储模块（Memory Module 0~M-1）
- 每个模块是一个完整的小容量存储器（如M=4时，每个模块容量为总容量的1/4），拥有独立的地址译码器、读写控制电路和存储体；
- 模块间完全并行工作，可同时处理不同地址的请求，互不干扰；
- 模块类型：通常为DRAM（主存场景），也可采用SRAM（高速缓存场景）。
地址分配电路
- 功能：接收CPU的地址信号，按低位交叉编址规则，将地址拆分为“模块号”和“模块内地址”，并将“模块内地址”发送至对应模块；
- 实现：通过“地址线低位译码”完成，如4个模块时，取地址的最低2位作为模块号（00→模块0，01→模块1，10→模块2，11→模块3），高位作为模块内地址。
数据缓冲与合并电路
- 功能：处理多模块的并行数据输出，确保CPU按地址顺序接收数据；
- 逻辑：当多个模块同时输出数据时（如周期2模块0输出地址0数据，周期3模块1输出地址1数据），缓冲电路按地址顺序暂存数据，再连续传输至CPU数据总线；
- 优势：避免数据乱序，确保CPU接收的连续地址数据是按顺序排列的。

（三）模块数与带宽的关系

多模块交叉存储器的带宽提升倍数取决于“模块数（M）”和“访问模式”（连续访问或随机访问）：

连续访问（如数组遍历、指令读取）：
此时数据按低位交叉编址分散在M个模块，每个周期有一个模块输出数据，带宽= M × 单模块带宽，即带宽提升M倍。
- 示例：单模块DRAM的带宽为1GB/s，4个模块交叉存储时，连续访问带宽可达4GB/s；8个模块时可达8GB/s。
随机访问（地址无规律）：
此时地址可能随机分配到任意模块，若多个请求命中同一模块，仍需串行处理，带宽提升倍数小于M（通常为1.5~2倍，取决于模块数和地址分布）。

因此，多模块交叉存储器的核心优势体现在“连续访问”场景，这与CPU的“空间局部性”（连续地址数据频繁访问）高度契合，能最大化主存带宽。

（四）多模块交叉存储器的典型应用

多模块交叉存储器是现代计算机主存（DRAM）的标准架构，广泛应用于PC、服务器、工作站等场景，核心应用包括：

计算机主存（DRAM）的带宽优化
现代DDR SDRAM主存普遍采用“多模块交叉存储”，如DDR4内存的“Bank组交叉”（将内存芯片分为多个Bank组，每个Bank组相当于一个独立模块，按低位交叉编址分配地址）：
- 例如，DDR4内存包含8个Bank组，连续地址数据分散在8个Bank组中，8个Bank组并行工作，使内存带宽提升至单Bank组的8倍；
- 配合DDR的“双沿传输”技术，现代DDR5内存的单通道带宽可达51.2GB/s（8个Bank组+6400MT/s传输速率），满足CPU的高频数据需求。
高性能计算（HPC）的大容量存储
在超级计算机、AI训练服务器等场景，需TB级主存和极高带宽，多模块交叉存储是核心技术：
- 通过数百个DRAM模块组成交叉存储系统，结合多通道技术（如8通道内存），总带宽可达TB/s级别（如8通道DDR5-6400内存，总带宽=8×51.2GB/s=409.6GB/s）；
- 支撑大规模并行计算（如气象模拟、分子动力学）中对海量数据的高速访问。
图形处理器（GPU）的显存
GPU的渲染过程需频繁访问连续的纹理数据、帧缓存数据，多模块交叉存储能最大化显存带宽：
- GPU显存（如GDDR系列）采用“多模块交叉+高位宽总线”设计，如GDDR6显存的单通道带宽可达672GB/s（通过16个模块交叉+14Gbps传输速率）；
- 确保GPU在4K游戏、3D渲染时，能实时处理海量图形数据，避免画面卡顿。

（五）多模块交叉存储器的优缺点

优点：
- 大容量与高带宽兼顾：通过多模块并行，在实现GB/TB级大容量的同时，大幅提升带宽，突破单模块瓶颈；
- 成本可控：相比双端口存储器，无需额外增加端口电路，仅通过模块拆分和地址分配实现并行，硬件成本低；
- 适配CPU局部性：针对连续访问优化，完美匹配CPU的指令流、数据流访问模式，性能提升显著。
缺点：
- 随机访问性能提升有限：仅对连续地址访问有明显带宽提升，随机访问时性能接近单模块；
- 控制逻辑复杂：需设计地址分配、数据缓冲、模块仲裁等电路，尤其模块数较多时（如16个模块），控制逻辑难度增加；
- 模块故障影响大：若一个模块损坏，会导致对应地址的数据丢失（可通过ECC校验和冗余模块缓解）。

📊 总结

并行存储器通过“硬件并行化”突破传统单端口存储器的带宽瓶颈，其两大核心架构——双端口存储器和多模块交叉存储器，分别针对“小容量多设备共享”和“大容量连续访问”场景优化，核心结论可归纳为：

🔌 双端口存储器：通过双套独立访问电路共享同一存储体，实现双设备并发访问，适用于CPU与DMA或双CPU的数据共享，优势是实时性好、设计简单，但成本高、容量受限；
🔄 多模块交叉存储器：将连续地址数据分散到多个独立模块，通过低位交叉编址和流水线访问，使连续访问带宽提升M倍（M为模块数），是现代主存（DRAM）的主流架构，兼顾大容量与高带宽，完美适配CPU的空间局部性访问模式。

随着CPU和GPU性能的持续提升，并行存储器的设计将向“更多模块”“更高交叉度”“智能地址分配”方向发展（如HBM3显存采用3D堆叠+16个Bank组交叉，带宽突破3TB/s），持续弥合“存储墙”与“计算墙”之间的差距，为高性能计算、AI、元宇宙等领域提供核心存储支撑。