除法器的实现（恢复余数、不恢复余数、级数展开、Newton-Raphson）

lu-ming.xyz

已于 2022-06-03 12:39:40 修改

阅读量5.9k

点赞数 9

分类专栏：基础知识文章标签： fpga开发

于 2022-06-03 12:33:47 首次发布

欢迎点赞哦!

本文链接：https://blog.csdn.net/lum250/article/details/125111667

版权

基础知识专栏收录该内容

11 篇文章

订阅专栏

本文详细介绍了基于FPGA的数字信号处理中几种除法器算法，包括恢复余数、不恢复余数和级数展开算法，并提供了Verilog代码实现。这些算法针对无符号数和有符号数进行了讨论，分析了各自的特点和适用场景，同时探讨了硬件实现的延迟和优化策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考《基于FPGA的数字信号处理（第二版）》，对其中的除法器算法进行仿真。

1 基于恢复余数（Restoring）算法的除法器

Restoring 算法无法直接用于与有符号数，对于有符号数需要先转换为无符号数。然后根据除数与被除数的符号判断商与余数的符号。

1.1 原理

被除数（Dividend）5621 / 除数（Divisor）3 = 商（Quotient）1873 … 余数（Remainder）2

$r_i = r_{i+1}-q_i·D·10^i$

$q_i$ 通过部分余数的正负确定，如果余数为负表示 $q_i$ 较大，需要将其恢复到部分余数为正以获取正确的 $q_i$ ，这便是“恢复”的含义。

用恢复余数算法表示上式计算过程：

$q_i$	余数	是否恢复
$q_3=1$	5621-3×10^3×1=2621
$q_3=2$	5621-3×10^3×2=-379	$q_3$ 恢复为1，余2621
$q_2=1$	2621-3×10^2×1=2321
$q_2=2$	2621-3×10^2×2=2021
……	……
$q_2=8$	2621-3×10^2×8=221
$q_2=9$	2621-3×10^2×9=-79	$q_2$ 恢复为8，余221
……	……
$q_1=7$	221-3×10^1×7=11
$q_1=8$	221-3×10^1×8=-19	$q_1$ 恢复为7，余11
……	……
$q_0=3$	11-3×10^0×3=2
$q_0=4$	11-3×10^0×4=-1	$q_0$ 恢复为3，余2

得 ${q_3q_2q_1q_0}$ = 1873，R=2。

以上是十进制算法，对于二进制：

$r_i = r_{i+1}-q_i·D·2^i$

$q_i$ 只能取0或1，所以每位只需一次运算即可判断是否恢复。

此外还需确定各参数的字长：假定除数D为 nbit，商Q为 nbit，则 $Q\le2^n-1$ 。由于R<D，所以R的位宽可以设置为 nbit。则被除数Y:
$Y=D·Q+R < (2^n-1)D+D=2^nD$
意味着Y的高 nbit 小于D。

基于 restoring 算法的无符号数除法运算具有如下特征：

各参数字长：被除数为 2nbit，除数、商和余数为 nbit。
被除数的高 nbit 需小于除数。
算法需迭代 n次。

算法流程：

在这里插入图片描述

基本运算单元（移位和减法）硬件架构：
在这里插入图片描述

延时分析：
上述硬件架构运算 latency 为2，对于 nbit 商，需要 2n latency。去掉寄存输出可降低延迟。

1.1 Verilog 实现

流水线实现方式比较简单，这里实现运算单元分时复用。

`timescale 1ns/1ps

module div_restoring_pip (
    input             I_sys_clk  ,
    input             I_reset_n  ,
    input             I_valid    ,
    input      [15:0] I_dividend ,
    input      [7:0]  I_divisor  ,
    output reg        O_valid    ,
    output reg [7:0]  O_quotient ,
    output reg [7:0]  O_remainder
);
//--- internal signal definitions ---
//=== parameter definitions ===			
                                   
//=== reg definitions ===  
reg        R_valid           ;			
reg [7:0]  R_divisor         ;
reg [3:0]  R_index_cnt       ;
reg [15:0] R_remainder_t     ;
reg [15:0] R_di              ;
reg [7:0]  R_quotient        ;
reg        R_restoring_valid ;


//=== wire definitions === 	
wire        W_restoring_valid;
wire        W_quotient       ;			
wire [15:0] W_remainder      ;                                   
                                    
//--- Main body of code ---   
// 非流水线处理，需要 blocking
always @(posedge I_sys_clk or negedge I_reset_n)
begin
    if(~I_reset_n) 
    begin
        R_valid    <= 1'b0;
        R_divisor  <= 1'b0;
    end 
    else
    begin
        R_valid    <= I_valid;
        if (I_valid)
        begin
            R_divisor  <= I_divisor ;
        end
    end
end

// 共计算8位的商
always @(posedge I_sys_clk or negedge I_reset_n)
begin
    if(~I_reset_n) 
    begin
        R_index_cnt <= 4'd0;
    end 
    else
    begin
        if (I_valid)
        begin
            R_index_cnt <= 4'd8;
        end 
        else if (W_restoring_valid)
        begin
            R_index_cnt <= R_index_cnt - 4'd1;
        end
    end
end

// 得到下一次计算的输入
always @(posedge I_sys_clk or negedge I_reset_n)
begin
    if(~I_reset_n) 
    begin
        R_remainder_t <= 16'd0;
        R_di <= 16'd0;
    end 
    else
    begin
        if (I_valid)
        begin
            R_remainder_t <= I_dividend ;
            R_di <= I_divisor << 3'd7;
        end
        else if (W_restoring_valid)
        begin
            R_remainder_t <= W_remainder ;
            R_di <= R_divisor << (R_index_cnt-2);
        end
    end
end

// 保存每位的商
always @(posedge I_sys_clk or negedge I_reset_n)
begin
    if(~I_reset_n) 
    begin
        R_quotient <= 8'd0;
    end 
    else
    begin
        if (I_valid)
        begin
            R_quotient <= 8'd0;
        end
        else if (W_restoring_valid)
        begin
            R_quotient <= {R_quotient[6:0], W_quotient};
        end
    end
end

// 输出
always @(posedge I_sys_clk or negedge I_reset_n)
begin
    if(~I_reset_n) 
    begin
        O_valid     <= 1'd0;
        O_quotient  <= 8'd0;
        O_remainder <= 8'd0;
    end 
    else
    begin
        if (W_restoring_valid && (R_index_cnt == 4'd1))
        begin
            O_valid     <= 1'd1;
            O_quotient  <= {R_quotient[6:0], W_quotient};
            O_remainder <= W_remainder;
        end
        else 
        begin
            O_valid     <= 1'd0;
            O_quotient  <= 8'd0;
            O_remainder <= 8'd0;
        end
    end
end

always @(posedge I_sys_clk or negedge I_reset_n)
begin
    if(~I_reset_n) 
    begin
        R_restoring_valid <= 1'b0;
    end 
    else
    begin
        R_restoring_valid <= W_restoring_valid;
    end
end

restoring restoring_u (
    .I_sys_clk(I_sys_clk),
    .I_reset_n(I_reset_n),
    .I_valid  (R_valid | (R_restoring_valid && (R_index_cnt != 4'd0))),
    .I_R      (R_remainder_t),
    .I_Di     (R_di),
    .O_valid  (W_restoring_valid),
    .O_Q      (W_quotient),
    .O_R      (W_remainder)  
);

endmodule


module restoring (
    input             I_sys_clk,
    input             I_reset_n,
    input             I_valid,
    input      [15:0] I_R,
    input      [15:0] I_Di,
    output reg        O_valid,
    output reg        O_Q,
    output reg [15:0] O_R
);
//--- internal signal definitions ---
//=== parameter definitions ===			
                                
//=== reg definitions ===  		
reg        R_valid;		
reg [15:0] R_d1;
reg [15:0] R_d2; 

//=== wire definitions === 				
                                    
                                    
//--- Main body of code ---   
always @(posedge I_sys_clk or negedge I_reset_n)
begin
    if(~I_reset_n) 
    begin
        R_valid <= 1'b0;
        R_d1 <= 16'd0;
        R_d2 <= 16'd0;
    end 
    else
    begin
        R_valid <= I_valid;
        R_d1 <= I_R;
        R_d2 <= I_R - I_Di;
    end
end

always @(posedge I_sys_clk or negedge I_reset_n)
begin
    if(~I_reset_n) 
    begin
        O_valid <= 1'b0;
        O_Q <= 16'd0;
        O_R <= 16'd0;
    end 
    else
    begin
        O_valid <= R_valid;
        if (R_valid)
        begin
            O_Q <= ~R_d2[15];
            O_R <= R_d2[15] ? R_d1 : R_d2;
        end
        else 
        begin
            O_Q <= 16'd0;
            O_R <= 16'd0;
        end
    end
end

endmodule

仿真结果：
在这里插入图片描述

2 基于不恢复余数（Non-Restoring）算法的除法器

2.1 原理

恢复余数第k位迭代：
$r_k = r_{k+1}-q_k·D·2^k$
若 $r_k<0$ 表明 $q_k=0$ ，使得 $ r_k = r_{k+1} > 0 $ ，下一位（k-1位）迭代变为：
$r_{k-1} = r_{k}-D·2^{k-1} = r_{K+1}-D·2^{k-1}$

如果不恢复余数， $r_k$ 保留为负值$r_{k+1}-D·2^k $，下一位（k-1位）迭代为：
$r_{k-1} = r_{k}-D·2^{k-1} = r_{K+1}-D·2^{k}-D·2^{k-1}= r_{K+1}-3·D·2^{k-1}$

上式的结果是错的，如果将k-1位迭代改为：
$r_{k-1} = r_{k}+D·2^{k-1} = r_{K+1}-D·2^{k}+D·2^{k-1}= r_{K+1}-D·2^{k-1}$

这个结果是对的了。所以 Non-Restoring 算法流程为：

在这里插入图片描述

Non-Restoring 算法的相比 Restoring 算法的特征：

$q_i$ 取决于 $r_i$ 的正负。而不是预先假定为1，再根据 $r_i$ 的正负修正。
$r_i$ 的正负同时决定了下次迭代执行加法还是减法。
$r_0$ 的正负决定是否需要余数校正。若为负，最终余数为 $r_0+D$ 。

基本迭代单元硬件架构：
在这里插入图片描述

以 33/7 为例，Non-Restoring 算法迭代过程：

k	余数 $r_k$	$q_i$
3	33
2	33-1×7×2^2=5	$q_2=1$
1	5-1×7×2^1=-9	$q_1=0$
0	-9+1×7×2^1=-2	$q_1=0$
最终计算结果为 Q=3’b100=4，余数为-2。需要对余数进行校正，最终余数为 $r_0+D=-2+7=5$ 。

2.1 Verilog 实现

注意：实现有待优化，复杂的组合逻辑需要插入pipeline才能用于高速处理。

`timescale 1ns/1ps


module divider (
    input             I_sys_clk  ,
    input             I_reset_n  ,
    input             I_valid    ,
    input      [15:0] I_dividend ,
    input      [7:0]  I_divisor  ,
    output reg        O_valid    ,
    output reg [7:0]  O_quotient ,
    output reg [7:0]  O_remainder
);

//--- internal signal definitions ---
//=== parameter definitions ===			
                                  
//=== reg definitions ===  				
reg [3:0]  R_index_cnt;
reg        R_valid    ;
reg [15:0] R_remainder;
reg [7:0]  R_divisor  ;
reg [15:0] R_remainder_t;
reg [7:0]  R_quotient_t;

//=== wire definitions === 				                                  

                                    
//--- Main body of code ---  
always @(posedge I_sys_clk or negedge I_reset_n)
begin
    if(~I_reset_n) 
    begin
        R_valid     <= 1'b0;
        R_remainder <= 16'd0;
        R_divisor   <= 8'd0;
    end 
    else
    begin
        R_valid     <= I_valid;
        if (I_valid)
        begin
            R_remainder <= I_dividend;
            R_divisor   <= I_divisor ;
        end
    end
end

always @(posedge I_sys_clk or negedge I_reset_n)
begin
    if(~I_reset_n) 
    begin
        R_index_cnt <= 4'd0;
    end 
    else
    begin
        if (R_valid)
        begin
            R_index_cnt <= 4'd8;
        end
        else if (|R_index_cnt)
        begin
            R_index_cnt <= R_index_cnt - 4'd1;
        end
    end
end

always @(posedge I_sys_clk or negedge I_reset_n)
begin
    if(~I_reset_n) 
    begin
        R_remainder_t <= 16'd0;
    end 
    else
    begin
        if (I_valid)
        begin
            R_remainder_t <= I_dividend;
        end
        else if (|R_index_cnt)
        begin
            R_remainder_t <= R_remainder_t[15] ? (R_remainder_t + (R_divisor << (R_index_cnt-2))) : (R_remainder_t - (R_divisor << (R_index_cnt-2))) ;
        end
    end
end

always @(posedge I_sys_clk or negedge I_reset_n)
begin
    if(~I_reset_n) 
    begin
        R_quotient_t <= 8'd0;
    end 
    else
    begin
        if (I_valid)
        begin
            R_quotient_t <= 8'd0;
        end
        else if (|R_index_cnt && (R_index_cnt <= 4'd7))
        begin
            R_quotient_t <= {R_quotient_t[6:0], ~R_remainder_t[15]};
        end
    end
end


always @(posedge I_sys_clk or negedge I_reset_n)
begin
    if(~I_reset_n) 
    begin
        O_valid     <= 1'd0;
        O_quotient  <= 8'd0;
        O_remainder <= 16'd0;
    end 
    else
    begin
        if (R_index_cnt == 4'd1)
        begin
            O_valid     <= 1'd1;
            O_quotient  <= {R_quotient_t[6:0], ~R_remainder_t[15]};
            O_remainder <= R_remainder_t[15] ? (R_remainder_t + R_divisor) : R_remainder_t;
        end
        else 
        begin
            O_valid     <= 1'd0;
            O_quotient  <= 8'd0;
            O_remainder <= 16'd0;
        end
    end
end

endmodule

仿真结果：
在这里插入图片描述

2.2 用于有符号数的改进

在这里插入图片描述

3 基于级数展开算法的除法器

将D归一化为[0.5,1)，定义：
$f(x)=\frac{1}{D}=\frac{1}{1+x}$
根据Taylor级数展开：
$f(x)=\frac{1}{1+x}=1-x+x^2-x^3+x^4-...$
进一步改写为：
$\frac{1}{D}=(1-x)(1+x^2)(1+x^4)(1+x^8)(1+x^{16})(1+x^{32})...$