“乒乓操作”是一个常常应用于数据流控制的处理技巧,典型的乒乓操作方法如图所示。
乒乓操作的处理流程为:输入数据流通过“输入数据选择单元”将数据流等时分配到两个数据缓冲区,数据缓冲模块可以为任何存储模块,比较常用的存储单元为双口RAM(DPRAM)、单口RAM(SPRAM)、FIFO等。在第一个缓冲周期,将输入的数据流缓存到“数据缓冲模块1”;在第2个缓冲周期,通过“输入数据选择单元”的切换,将输入的数据流缓存到“数据缓冲模块2”,同时将“数据缓冲模块1”缓存的第1个周期数据通过“输入数据选择单元”的选择,送到“数据流运算处理模块”进行运算处理;在第3个缓冲周期通过“输入数据选择单元”的再次切换,将输入的数据流缓存到“数据缓冲模块1”,同时将“数据缓冲模块2”缓存的第2个周期的数据通过“输入数据选择单元”切换,送到“数据流运算处理模块”进行运算处理。如此循环。
乒乓操作的最大特点是通过“输入数据选择单元”和“输出数据选择单元”按节拍、相互配合的切换,将经过缓冲的数据流没有停顿地送到“数据流运算处理模块”进行运算与处理。把乒乓操作模块当做一个整体,站在这个模块的两端看数据,输入数据流和输出数据流都是连续不断的,没有任何停顿,因此非常适合对数据流进行流水线式处理。所以乒乓操作常常应用于流水线式算法,完成数据的无缝缓冲与处理。
乒乓操作的第二个优点是可以节约缓冲区空间。比如在WCDMA基带应用中,1个帧是由15个时隙组成的,有时需要将1整帧的数据延时一个时隙后处理,比较直接的办法是将这帧数据缓存起来,然后延时1个时隙进行处理。这时缓冲区的长度是1整帧数据长,假设数据速率是3.84Mbps,1帧长10ms,则此时需要缓冲区长度是38400位。如果采用乒乓操作,只需定义两个能缓冲1个时隙数据的RAM(单口RAM即可)。
当向一块RAM写数据的时候,从另一块RAM读数据,然后送到处理单元处理,此时每块RAM的容量仅需2560(38400/15)位即可,2块RAM加起来也只有5120位的容量。
另外,巧妙运用乒乓操作还可以达到用低速模块处理高速数据流的效果。如图所示,数据缓冲模块采用了双口RAM,并在DPRAM后引入了一级数据预处理模块,这个数据预处理可以根据需要的各种数据运算,比如在WCDMA设计中,对输入数据流的解扩、解扰、去旋转等。假设端口A的输入数据流的速率为100Mbps,乒乓操作的缓冲周期是10ms。以下分析各个节点端口的数据速率。
A端口处输入数据流速率为100Mbps,在第1个缓冲周期10ms内,通过“输入数据选择单元”,从B1到达DPRAM1。B1的数据速率也是100Mbps,DPRAM1要在10ms内写入1Mb数据。同理,在第2个10ms,数据流被切换到DPRAM2,端口B2的数据速率也是100Mbps,DPRAM2在第2个10ms被写入1Mb数据。在第3个10ms,数据流又切换到DPRAM1,DPRAM1被写入1Mb数据。
仔细分析就会发现到第3个缓冲周期时,留给DPRAM1读 取数据并送到“数据预处理模块1”的时间一共是20ms。有的工程师困惑于DPRAM1的读数时间为什么是20ms,这个时间是这样得来的:首先,在在第 2个缓冲周期向DPRAM2写数据的10ms内,DPRAM1可以进行读操作;另外,在第1个缓冲周期的第5ms起(绝对时间为5ms时刻), DPRAM1就可以一边向500K以后的地址写数据,一边从地址0读数,到达10ms时,DPRAM1刚好写完了1Mb数据,并且读了500K数据,这个缓冲时间内DPRAM1读了5ms;在第3个缓冲周期的前5ms(绝对时间为20-25ms),可以一边向地址0写数据一边从500K以后的地址读数,又读取了5个ms,所以截止DPRAM1第一个周期存入的数据被完全覆盖以前,DPRAM1最多可以读取20ms时间,而所需读取的数据为1Mb,所以端口C1的数据速率为:1Mb/20ms=50Mbps。因此,“数据预处理模块1”的最低数据吞吐能力也仅仅要求为50Mbps。同理,“数据预处理模块2”的最低数据吞吐能力也仅仅要求为50Mbps。换言之,通过乒乓操作,“数据预处理模块”的时序压力减轻了,所要求的数据处理速率仅仅为输入数据速率的1/2。
通过乒乓操作实现低速模块处理高速数据的实质是:通过DPRAM这种缓存单元实现了数据流的串并转换,并行用“数据预处理模块1”和“数据预处理模块2”处理分流的数据,是面积与速度互换原则的体现!
简单的乒乓操作,读写用同一个时钟:
//乒乓操作
//输入数据的存储区域分为buffer1和buffer2,各为256个地址,为了防止读写冲突分为两个状态,state0和state1
//state0读buffer2,写buffer1
//state1读buffer1,写buffer2
//当buffer存满时进行状态切换
module pinpong(clk,rst,din,dout);
input clk;
input rst;
input [7:0] din;
output reg [7:0] dout;
reg [7:0] buffer1 [255:0];
reg [7:0] buffer2 [255:0];//定义两块存储区域
reg wr_flag;//写标志 wr_flag=0 写buffer1;wr_flag=1 写buffer2
reg rd_flag;//读标志 rd_flag=0 读buffer2;rd_flag=1 读buffer1
reg [1:0] cs,ns;//状态
parameter s0=2'b01,s1=2'b10;//两个状态,采用one-hot编码
parameter s0_pos=1'd0,s1_pos=1'd1;//描述有效位在state中的位置
reg [7:0] count;//计数
always @(posedge clk)
begin
if(rst)
begin
count <= 0;
end
else
begin
count <= count + 1'd1;
end
end
//时序逻辑描述状态转换
always @(posedge clk)
begin
if(rst)
begin
cs <= s0;
end
else
begin
cs <= ns;
end
end
//组合逻辑描述下一个状态
always @(*)
begin
if(rst)
begin
ns = s0;
end
else
begin
case(1'b1)
cs[s0_pos]:ns=(count == 8'hFF)?s1:s0;
cs[s1_pos]:ns=(count == 8'hFF)?s0:s1;
default:ns = s0;
endcase
end
end
//输出逻辑
always @(posedge clk)
begin
if(rst)
begin
wr_flag <= 1'd0;
rd_flag <= 1'd0;
end
else
begin
case(1'b1)
cs[s0_pos]:begin
wr_flag <= 1'd0;//写1读2
rd_flag <= 1'd0;
end
cs[s1_pos]:begin
wr_flag <= 1'd1;//写2读1
rd_flag <= 1'd1;
end
default:begin
wr_flag <= 1'd0;//写1读2
rd_flag <= 1'd0;
end
endcase
end
end
//写
always @(posedge clk)
begin
if(rst)
begin
buffer1[count] <= 8'd0;
buffer2[count] <= 8'd0;
end
else
begin
case(wr_flag)
1'd0:buffer1[count] <= din;//写1
1'd1:buffer2[count] <= din;//写2
default:begin
buffer1[count] <= 8'd0;
buffer2[count] <= 8'd0;
end
endcase
end
end
//读
always @(posedge clk)
begin
if(rst)
begin
dout <= 8'd0;
end
else
begin
case(rd_flag)
1'd0:dout <= buffer2[count];//读2
1'd1:dout <= buffer1[count];//读1
default: dout <= 8'd0;
endcase
end
end
endmodule
可以看到输出数据保持连贯性,没有漏掉数据,表明设计正确;