基于FPGA的快速傅里叶变换加速（三）

最新推荐文章于 2024-07-08 15:05:22 发布

生如昭诩

最新推荐文章于 2024-07-08 15:05:22 发布

阅读量2.5k

点赞数 4

本文链接：https://blog.csdn.net/lc1852109/article/details/113481001

版权

基于FPGA的快速傅里叶变换加速（三）硬件加速介绍及部分verilog代码实现

1. 硬件加速
2. Verilog代码实现
总结

硬件加速介绍及部分verilog代码实现)

1. 硬件加速

1.1 FPGA

1.1.1 FPGA介绍

概念：

FPGA（Field Programmable Gate Array）是在PAL、GAL等可编程器件的基础上进一步发展的产物。它是作为专用集成电路（ASIC）领域中的一种半定制电路而出现的，既解决了定制电路的不足，又克服了原有可编程器件门电路数有限的缺点。

基本结构：

FPGA 器件属于专用集成电路中的一种半定制电路，是可编程的逻辑列阵，能够有效的解决原有的器件门电路数较少的问题。FPGA 的基本结构包括可编程输入输出单元，可配置逻辑块，数字时钟管理模块，嵌入式块RAM，布线资源，内嵌专用硬核，底层内嵌功能单元。由于FPGA具有布线资源丰富，可重复编程和集成度高，投资较低的特点，在数字电路设计领域得到了广泛的应用。FPGA的设计流程包括算法设计、代码仿真以及设计、板机调试，设计者以及实际需求建立算法架构，利用EDA建立设计方案或HD编写设计代码，通过代码仿真保证设计方案符合实际要求，最后进行板级调试，利用配置电路将相关文件下载至FPGA芯片中，验证实际运行效果。

工作原理：

在这里插入图片描述

FPGA采用了逻辑单元阵列LCA（Logic Cell Array）这样一个概念，内部包括可配置逻辑模块CLB（Configurable Logic Block）、输入输出模块IOB（Input Output Block）和内部连线（Interconnect）三个部分。现场可编程门阵列（FPGA）是可编程器件，与传统逻辑电路和门阵列（如PAL，GAL及CPLD器件）相比，FPGA具有不同的结构。FPGA利用小型查找表（16×1RAM）来实现组合逻辑，每个查找表连接到一个D触发器的输入端，触发器再来驱动其他逻辑电路或驱动I/O，由此构成了既可实现组合逻辑功能又可实现时序逻辑功能的基本逻辑单元模块，这些模块间利用金属连线互相连接或连接到I/O模块。FPGA的逻辑是通过向内部静态存储单元加载编程数据来实现的，存储在存储器单元中的值决定了逻辑单元的逻辑功能以及各模块之间或模块与I/O间的联接方式，并最终决定了FPGA所能实现的功能，FPGA允许无限次的编程。

1.1.2 开发板

开发板类型

ALINX黑金AX7020开发板
在这里插入图片描述

开发板介绍

此款开发板使用的是 Xilinx 公司的 Zynq7000 系列的芯片，型号为 XC7Z020-2CLG400I，400 个引脚的 FBGA 封装。ZYNQ7000 芯片可分成处理器系统部分 Processor System（PS）和可编程逻辑部分 Programmable Logic（PL）。在 AX7020 开发板上，ZYNQ7000 的 PS部分和 PL 部分都搭载了丰富的外部接口和设备，方便用户的使用和功能验证。另外开发板上集成了 Xilinx USB Cable 下载器电路，用户只要用一个 USB 线就可以对开发板进行下载和调试。下图为整个 AX7020 整个系统的结构示意图：
在这里插入图片描述
具体的结构功能可见用户手册，不再细述

1.2 加速理念

1.2.1 硬件加速

硬件加速是指在计算机中通过把计算量非常大的工作分配给专门的硬件来处理以减轻中央处理器的工作量之技术。尤其是在图像处理中这个技术经常被使用。
FPGA易于实现软件模块和硬件模块的相互交换，且不必改变处理器或进行板级变动。具体加速理念可见https://blog.csdn.net/zhongrg/article/details/1891335（zhongrg的一篇博客）

1.2.2 FFT中的加速

（一）并行运算

在时域抽取的基二算法中，需要进行大量的蝶形运算，而在硬件加速（FPGA）中可以通过封装蝶形运算模块，并通过并行重复使用模块实现时间和空间复杂度上的同时降低。而在此次大作业由于是64点的FFT，需要实现6层蝶形运算，在每一层中都要进行32次蝶形运算，对于不同蝶形运算间的距离以及内部距离，一方面可以通过直接生成多个模块分别调用完成，另一方面可以通过循环或状态机的方法实现。

（二）模块化调用

各模块分层

主模块为main模块，负责调用rom模块读取数据流，调用butterfly first to six 模块，分别实现六层运算，并将各运算模块的值存储在不同的中间寄存器中（如果使用同一寄存器会出现结果错误），在每一层的运算模块中调用复数加法模块和乘法模块实现蝶形运算。
在这里插入图片描述

复数加法模块

首先将输入数据存储到寄存器中，再对数据进行加法，并且从高位截断（会产生误差），这里提供一种加法器的写法

超前进位加法器

//基础-设置一位全加器模块
module add(X,Y,Cin,F,Cout);
  input X,Y,Cin;
  output F,Cout;
  assign F = X ^ Y ^ Cin;
  assign Cout = (X ^ Y) & Cin | X & Y;
endmodule 
//一位全加器输入x，y，Cin；输出F，Cout；
//基础-设置4位超前进位加法器CLA
module CLA(c0,c1,c2,c3,c4,p1,p2,p3,p4,g1,g2,g3,g4);
	 input c0,g1,g2,g3,g4,p1,p2,p3,p4;
	 output c1,c2,c3,c4;
	 //直接采取超前进位方式，完成相应的进位的计算
	 assign   c1 = g1 ^ (p1 & c0),
	          c2 = g2 ^ (p2 & g1) ^ (p2 & p1 & c0),
			  c3 = g3 ^ (p3 & g2) ^ (p3 & p2 & g1) ^ (p3 & p2 & p1 & c0),
			  c4 = g4 ^ (p4 & g3) ^ (p4 & p3 & g2) ^ (p4 & p3 & p2 & g1) ^(p4 & p3 & p2 & p1 & c0);
endmodule 
//4位CLA输入本级的基本参数，输出对应的各位级上的进位输入值
//进阶1-在一位全加器基础上设置四位并行进位加法器
module add_4(x,y,c0,c4,F,Gm,Pm);  //定义4位加法器模块
      input [4:1] x;  // 设置4位二进制输入x,y
	  input [4:1] y;
	  input c0;      //设置二进制输入进位c0
	  output c4,Gm,Pm; //设置二进制输出进位c4
	  output [4:1] F; //设置二进制输出4位数F
	  wire p1,p2,p3,p4,g1,g2,g3,g4;  //设置wire类型线变量用于过程中计算
	  wire c1,c2,c3;
      //分四级完成单位上的一位全加器输出
	  add add1(
	             .X(x[1]),
					 .Y(y[1]),
					 .Cin(c0),
					 .F(F[1]),
					 .Cout()
				);
	  add add2(
	             .X(x[2]),
					 .Y(y[2]),
					 .Cin(c1),
					 .F(F[2]),
					 .Cout()
				);	
	 add add3(
	             .X(x[3]),
					 .Y(y[3]),
					 .Cin(c2),
					 .F(F[3]),
					 .Cout()
				);	
	add add4(
	             .X(x[4]),
					 .Y(y[4]),
					 .Cin(c3),
					 .F(F[4]),
					 .Cout()
				);		
		CLA CLA(
			.c0(c0),
			.c1(c1),
			.c2(c2),
			.c3(c3),
			.c4(c4),
			.p1(p1),
			.p2(p2),
			.p3(p3),
			.p4(p4),
			.g1(g1),
			.g2(g2),
			.g3(g3),
			.g4(g4)
		);
  assign   p1 = x[1] ^ y[1],	  
           p2 = x[2] ^ y[2],
		   p3 = x[3] ^ y[3],
		   p4 = x[4] ^ y[4];
  assign   g1 = x[1] & y[1],
           g2 = x[2] & y[2],
		   g3 = x[3] & y[3],
		   g4 = x[4] & y[4];
  assign Pm = p1 & p2 & p3 & p4,  //Pm和Gm分别为进位传递输出和进位产生输出
         Gm = g4 ^ (p4 & g3) ^ (p4 & p3 & g2) ^ (p4 & p3 & p2 & g1);
endmodule 
//进阶2-在4位CLA的基础上设置16位CLA模块
module CLA_16(A,B,c0,S,px,gx);
    input [16:1] A;
	input [16:1] B;
	input c0;
	output gx,px;
	output [16:1] S;
	wire c4,c8,c12;
	wire Pm1,Gm1,Pm2,Gm2,Pm3,Gm3,Pm4,Gm4;
	//同理分四级完成对应位数上的累加和超前进位计算
	add_4 add1(
	     .x(A[4:1]),
		  .y(B[4:1]),
		  .c0(c0),
		  .c4(),
		  .F(S[4:1]),
		  .Gm(Gm1),
		  .Pm(Pm1)
	);
	add_4 add2(
	     .x(A[8:5]),
		  .y(B[8:5]),
		  .c0(c4),
		  .c4(),
		  .F(S[8:5]),
		  .Gm(Gm2),
		  .Pm(Pm2)
	);
   add_4 add3(
	     .x(A[12:9]),
		  .y(B[12:9]),
		  .c0(c8),
		  .c4(),
		  .F(S[12:9]),
		  .Gm(Gm3),
		  .Pm(Pm3)
	);
   add_4 add4(
	     .x(A[16:13]),
		  .y(B[16:13]),
		  .c0(c12),
		  .c4(),
		  .F(S[16:13]),
		  .Gm(Gm4),
		  .Pm(Pm4)
	);
	assign   c4 = Gm1 ^ (Pm1 & c0),//计算各个分级位进位输出取值
	         c8 = Gm2 ^ (Pm2 & Gm1) ^ (Pm2 & Pm1 & c0),
			 c12 = Gm3 ^ (Pm3 & Gm2) ^ (Pm3 & Pm2 & Gm1) ^ (Pm3 & Pm2 & Pm1 & c0);
   assign  px = Pm1 & Pm2 & Pm3 & Pm4,//Pm和Gm分别为16进位传递输出和进位产生输出
	       gx = Gm4 ^ (Pm4 & Gm3) ^ (Pm4 & Pm3 & Gm2) ^ (Pm4 & Pm3 & Pm2 & Gm1);    
endmodule 
//进阶3-由16位CLA直接设置32位CLA
module add32(A,B,S,C32);
    input [32:1] A;
	input [32:1] B;
	output [33:1] S;
	output C32;
	wire px1,gx1,px2,gx2; //设置中间操作变量
    wire c16;
//将32位数分为两个16位操作数带入16位CLA模块完成并行计算过程
  CLA_16 CLA1(
      .A(A[16:1]),
		.B(B[16:1]),
		.c0(0),
		.S(S[16:1]),
		.px(px1),
		.gx(gx1)
	);
  CLA_16 CLA2(
        .A(A[32:17]),
		.B(B[32:17]),
		.c0(c16),
		.S(S[32:17]),
		.px(px2),
		.gx(gx2)
	);
  assign c16 = gx1 ^ (px1 && 0), //默认AB相加时c0 = 0
         C32 = gx2 ^ (px2 && c16); //确定32位输出进位为c32
endmodule 
//32位并行加法器输入为32位二进制数A，B；最终的输出为33位二进制数S(将整体进位整合到二进制数当中成为第33位）；

复数乘法模块

复数乘法模块，输入16位的实部及虚部，通过连续赋值最后输出
（其中由于在旋转系数的生成时，选择避开了浮点数计算，故在这里截断，精度不会造成很大影响）

module complex_mul1(
input clk,
input signed [15:0] ar,
input signed [15:0] ai,
input signed [15:0] br,
input signed [15:0] bi,
output signed [15:0] cr,
output signed [15:0] ci
    );
    wire signed [31:0] temp_re;
    wire signed [31:0] temp_im;
    assign temp_re=(ar*br-ai*bi);
    assign temp_im=(ar*bi+ai*br);
    assign cr=temp_re[31:16];
    assign ci=temp_im[31:16];
endmodule

这里同样提供一种16位的流水线乘法加速实现

16位流水线乘法器

module Multiplier(
    mul_a, mul_b, clk, rst_n, mul_out
    );
    input [7:0] mul_a, mul_b;
    input       clk;
    input       rst_n;
    output [15:0] mul_out;
    reg [15:0] mul_out;
    
    reg [15:0] stored0;
    reg [15:0] stored1;
    reg [15:0] stored2;
    reg [15:0] stored3;
    reg [15:0] stored4;
    reg [15:0] stored5;
    reg [15:0] stored6;
    reg [15:0] stored7;

    reg [15:0] add01;
    reg [15:0] add23;
    reg [15:0] add45;
    reg [15:0] add67;
    reg [15:0] add0123;
    reg [15:0] add4567;

    always @(posedge clk or negedge rst_n) begin
        if(!rst_n) begin
            mul_out <= 16'b0;
            stored0 <= 16'b0;stored4 <= 16'b0;
            stored1 <= 16'b0;stored5 <= 16'b0;
            stored2 <= 16'b0;stored6 <= 16'b0;
            stored3 <= 16'b0;stored7 <= 16'b0;
            add01 <= 16'b0;add45 <= 16'b0;
            add23 <= 16'b0;add67 <= 16'b0;
            add0123 <= 16'b0;add4567 <= 16'b0;
        end
        else begin
            stored0 <= mul_b[0]? {8'b0, mul_a} : 16'b0;
            stored1 <= mul_b[1]? {7'b0, mul_a, 1'b0} : 16'b0;
            stored2 <= mul_b[2]? {6'b0, mul_a, 2'b0} : 16'b0;
            stored3 <= mul_b[3]? {5'b0, mul_a, 3'b0} : 16'b0;
            stored4 <= mul_b[4]? {4'b0, mul_a, 4'b0} : 16'b0;
            stored5 <= mul_b[5]? {3'b0, mul_a, 5'b0} : 16'b0;
            stored6 <= mul_b[6]? {2'b0, mul_a, 6'b0} : 16'b0;
            stored7 <= mul_b[7]? {1'b0, mul_a, 7'b0} : 16'b0;

            add01 <= stored1 + stored0;
            add23 <= stored3 + stored2;
            add45 <= stored5 + stored4;
            add67 <= stored7 + stored6;
            add0123 <= add01 + add23;
            add4567 <= add45 + add67;

            mul_out <= add0123 + add4567;
        end
    end
endmodule

主模块

module main(
//input clk,
//input reset,
//input [6:0] address
    );
    reg clk;
    reg reset;
    reg [5:0] address;
   // reg signed [15:0] lastdata_real[63:0];//中间变量，用于display时暂时寄存
    //reg signed [15:0] lastdata_imag[63:0];
    //调用模块时需用wire类型变量
    wire signed [15:0] outputRe0,outputRe1,outputRe2,outputRe3,outputRe4,outputRe5,outputRe6,outputRe7,
            outputRe8,outputRe9,outputRe10,outputRe11,outputRe12,outputRe13,outputRe14,outputRe15,
            outputRe16,outputRe17,outputRe18,outputRe19,outputRe20,outputRe21,outputRe22,outputRe23,
            outputRe24,outputRe25,outputRe26,outputRe27,outputRe28,outputRe29,outputRe30,outputRe31,
            outputRe32,outputRe33,outputRe34,outputRe35,outputRe36,outputRe37,outputRe38,outputRe39,
            outputRe40,outputRe41,outputRe42,outputRe43,outputRe44,outputRe45,outputRe46,outputRe47,
            outputRe48,outputRe49,outputRe50,outputRe51,outputRe52,outputRe53,outputRe54,outputRe55,
            outputRe56,outputRe57,outputRe58,outputRe59,outputRe60,outputRe61,outputRe62,outputRe63;      
    wire signed [15:0] outputIm0,outputIm1,outputIm2,outputIm3,outputIm4,outputIm5,outputIm6,outputIm7,
            outputIm8,outputIm9,outputIm10,outputIm11,outputIm12,outputIm13,outputIm14,outputIm15,
            outputIm16,outputIm17,outputIm18,outputIm19,outputIm20,outputIm21,outputIm22,outputIm23,
            outputIm24,outputIm25,outputIm26,outputIm27,outputIm28,outputIm29,outputIm30,outputIm31,
            outputIm32,outputIm33,outputIm34,outputIm35,outputIm36,outputIm37,outputIm38,outputIm39,
            outputIm40,outputIm41,outputIm42,outputIm43,outputIm44,outputIm45,outputIm46,outputIm47,
            outputIm48,outputIm49,outputIm50,outputIm51,outputIm52,outputIm53,outputIm54,outputIm55,
            outputIm56,outputIm57,outputIm58,outputIm59,outputIm60,outputIm61,outputIm62,outputIm63;  
    FFT_top test(clk,reset,address,
            outputRe0,outputRe1,outputRe2,outputRe3,outputRe4,outputRe5,outputRe6,outputRe7,
            outputRe8,outputRe9,outputRe10,outputRe11,outputRe12,outputRe13,outputRe14,outputRe15,
            outputRe16,outputRe17,outputRe18,outputRe19,outputRe20,outputRe21,outputRe22,outputRe23,
            outputRe24,outputRe25,outputRe26,outputRe27,outputRe28,outputRe29,outputRe30,outputRe31,
            outputRe32,outputRe33,outputRe34,outputRe35,outputRe36,outputRe37,outputRe38,outputRe39,
            outputRe40,outputRe41,outputRe42,outputRe43,outputRe44,outputRe45,outputRe46,outputRe47,
            outputRe48,outputRe49,outputRe50,outputRe51,outputRe52,outputRe53,outputRe54,outputRe55,
            outputRe56,outputRe57,outputRe58,outputRe59,outputRe60,outputRe61,outputRe62,outputRe63,
            outputIm0,outputIm1,outputIm2,outputIm3,outputIm4,outputIm5,outputIm6,outputIm7,
            outputIm8,outputIm9,outputIm10,outputIm11,outputIm12,outputIm13,outputIm14,outputIm15,
            outputIm16,outputIm17,outputIm18,outputIm19,outputIm20,outputIm21,outputIm22,outputIm23,
            outputIm24,outputIm25,outputIm26,outputIm27,outputIm28,outputIm29,outputIm30,outputIm31,
            outputIm32,outputIm33,outputIm34,outputIm35,outputIm36,outputIm37,outputIm38,outputIm39,
            outputIm40,outputIm41,outputIm42,outputIm43,outputIm44,outputIm45,outputIm46,outputIm47,
            outputIm48,outputIm49,outputIm50,outputIm51,outputIm52,outputIm53,outputIm54,outputIm55,
            outputIm56,outputIm57,outputIm58,outputIm59,outputIm60,outputIm61,outputIm62,outputIm63);
	initial begin
		// 初始化 时钟及复位信号和倒序所用地址序号
		clk = 0;
		reset = 1'b1;
		address = 6'd0;
		// 延迟25ns完成全局重置 
		#25;
        reset = 1'b0;		
	end
always #10 clk =~clk;   //每10ns反转一次
	always @ (negedge clk or negedge reset)
	begin
		if(!reset)
			begin
			if(address==6'd63)
			begin
				address = 6'd0;
				//$finish;
			end
			else
				address = address+6'd1;
			end
		else
			address = 6'd0;
	end
endmodule

（三）CORDIC算法

CORDIC（Coordinate Rotation Digital Computer）算法即坐标旋转数字计算方法，是J.D.Volder1于1959年首次提出，主要用于三角函数、双曲线、指数、对数的计算。该算法通过基本的加和移位运算代替乘法运算，使得矢量的旋转和定向的计算不再需要三角函数、乘法、开方、反三角、指数等函数。

CORDIC模块负责实现对旋转系数的生成，是一种伪旋转的方法。采用用不断的旋转求出对应的正弦余弦值，是一种近似求解。旋转的角度很讲求，每次旋转的角度必须使得正切值近似等于 1/(2^N)。旋转的目的是让Y轴趋近与0。把每次旋转的角度累加，即得到旋转的角度和即为正切值。
在这里插入图片描述
具体的算法介绍及实现可见https://www.cnblogs.com/touchblue/p/3535968.html

2. Verilog代码实现

2.1 流程介绍

算法流程图

在这里插入图片描述

2.2 实现方法

1.对于输入数据序列进行倒位序变换。
该变换的目的是使输出能够得到X(0)-X(N-1)的顺序序列，同样以8点DFT为例，该变换将顺序输入序列x(0)-x(7)变为x(0),x(4),x(2),x(6),x(1),x(5),x(3),x(7)序列。其实现方法是：假设顺序输入序列一次村在A(0)~A(N-1)的数组元素中，首先我们将数组下标进行二进制化(例：对于点数为8的序列只需要LOG2(8) = 3位二进制序列表示，序号6就表示为110)。二进制化以后就是将二进制序列进行倒位，倒位的过程就是将原序列从右到左书写一次构成新的序列，例如序号为6的二进制表示为110，倒位后变为了011，即使十进制的3。第三步就是将倒位前和倒位后的序号对应的数据互换。依然以序号6为例，其互换过程如下：
temp = A(6); A(6) = A(3); A(3) = A(6);
实际上考虑到执行效率，如果对于每一次输入的数据都需要这个处理过程是非常浪费时间的。我们可以采用指向指针的指针来实现该过程，或者是采用指针数组来实现该过程。

2.蝶形运算的循环结构。
对于点数为N = 2^L的fft运算，可以分解为L阶蝶形图级联，每一阶蝶形图内又分为M个蝶形组，每个蝶形组内包含K个蝶形。根据这一点我们就可以构造三阶循环来实现蝶形运算。编程过程需要注意旋转因子与蝶形阶数和蝶形分组内的蝶形个数存在关联。

3.浮点到定点转换需要注意的关键问题
上边的分析都是基于浮点运算来得到的结论，事实上大多数嵌入式系统对浮点运算支持甚微，因此在嵌入式系统中进行离散傅里叶变换一般都应该采用定点方式。对于简单的DFT运算从浮点到定点显得非常容易。根据式(1)，假设输入x(n)是经过AD采样的数字序列，AD位数为12位，则输入信号范围为0~4096。为了进行定点运算我们将旋转因子实部虚部同时扩大2**12倍，取整数部分代表旋转因子。之后，我们可以按照(1)式计算，得到的结果与原结果成比例关系，新的结果比原结果的2*12倍。但是，对于使用蝶形运算的fft我们不能采用这种简单的放大旋转因子转为整数计算的方式。因为fft是一个非对称迭代过程，假设我们对旋转因子进行了放大，根据蝶形流图我们可以发现其最终的结果是，不同的输入被放大了不同的倍数，对于第一个输入x(0)永远也不会放大。
在这里插入图片描述
从上式我们可以看到不同输入项所乘的旋转因子个数(注意这里是个数，就算是wn0，也被考虑进去了，因为在没有放大时wn等于1，放大后所有旋转因子指数模均不为1，因此需要考虑)。这就导致输入不平衡，运算结果不正确。经查阅相关资料，比较妥善的做法是，首先对所有旋转因子都放大2^Q倍，Q必须要大于等于L，以保证不同旋转因子的差异化。旋转因子放大，为了保证其模为1，在每一次蝶形运算的乘积运算中我们需要将结果右移Q位来抵消这个放大，从而得到正确的结果。之所以采用放大倍数必须是2的整数次幂的原因也在于此，我们之后可以通过简单的右移位运算将之前的放大抵消，而右移位又代替了除法运算，大大节省了时间。

4.计算过程中的溢出问题
最后需要注意的一个问题就是计算过程中的溢出问题。在实际应用中，AD虽然有12位的位宽，但是采样得到的信号可能较小，例如可能在0~8之间波动，也就是说实际可能只有3位的情况。这种情况下为了在计算过程中不丢失信息，一般都需要先将输入数据左移P位进行放大处理，数据放大可能会导致溢出，从而使计算错误，而溢出的极限情况是这样：假设我们数据位宽为D位(不包括符号位)，AD采样位数B位，数字放大倍数P位，旋转因此放大倍数Q位，FFT级联运算带来的最大累加倍数L位。我们得到:
在这里插入图片描述
假设AD位宽12，数据位宽32，符号位1位，因此有效位宽31位，采样点数N，那么我们可以得到log2(N)+P+Q<=19,假设点数128,又Q>=L可以得到放大倍数P<=5。