FPGA软硬件协同卷积网络加速算法优化【附代码】

坷拉博士

于 2024-09-14 19:55:00 发布

阅读量453

点赞数 6

文章标签： fpga开发网络算法

本文链接：https://blog.csdn.net/checkpaper/article/details/142265490

版权

✅博主简介：本人擅长数据处理、建模仿真、程序设计、论文写作与指导，项目与课题经验交流。项目合作可私信或扫描文章底部二维码。

在卷积神经网络（CNN）加速领域，低精度量化和混合精度量化是常用的方法，可以有效提高模型在边缘设备上的推理效率。然而，在低于8位的量化中，精度损失较为明显，同时，混合精度量化方法也面临着硬件实现上的挑战，特别是在FPGA加速器中，统一的计算架构难以兼容不同精度的运算。针对这些问题，本文提出了一系列优化策略，包括共享存储映射、通道适配性聚类哈希方法，以及组合精度量化方法，以提高卷积网络在FPGA上的加速性能。

1.1 研究背景与现状

传统的低精度量化研究中，为了保持模型精度，通常将CNN的第一层和最后一层保持非量化状态，或者至少量化到8位。然而，这种方法存在明显局限性，在追求更高的加速比和更低的功耗时，模型的精度会受到较大影响。混合精度量化则尝试为网络的不同层分配不同的精度，从而在性能和精度之间找到平衡。HAQ、HAWQ、HAWQ-V2以及Q-BERT等方法通过求解Hessian矩阵，找到了各层的最优比特位分配。但是，这些混合精度量化方法在FPGA硬件系统中的高效运行存在困难。例如，针对4位设计的并行计算阵列无法直接兼容8位精度的计算，导致硬件资源利用率下降。

1.2 研究挑战与目标

在边缘设备中，FPGA加速器面临多个挑战，包括：

存储映射问题：传统的加速器难以高效共享存储，导致CPU与FPGA之间的数据传输延迟较大。
乘法器资源消耗：CNN并行计算会消耗大量的乘法器资源，影响加速效率。
量化精度与硬件匹配：现有量化方案难以在低资源FPGA上充分释放算力，尤其在浮点数计算与硬件定点处理引擎不匹配的问题上。

1.3 研究内容

针对上述挑战，本文主要研究内容包括：

1. FPGA存储映射优化

为了提高CPU与FPGA之间的共享存储映射效率，本文提出了改进方案：

共享存储映射框架：引入共享存储映射框架，通过DMA（直接内存访问）和中断机制，实现了CPU与FPGA之间共享存储的能力。该方法不需要独立的存储资源，使得SoC设备可以直接利用系统内存进行数据交换。
软件延迟优化：在PYNQ架构的非实时操作系统中，软件传输延迟较大。本文改进了CPU与FPGA之间的DMA共享存储和中断调度机制，减少了数据拷贝的开销，提高了映射速度。

2. 通道适配性聚类哈希方法

CNN中的卷积运算涉及大量的乘法操作，过度消耗乘法器资源。本文提出了一种通道适配性聚类哈希方法，以提高乘法器资源的利用效率：

聚类数与通道关系：分析了聚类数与并行计算通道之间的关系，使用K-means聚类方法将卷积权重聚类为与并行输入通道数相等的K个类别，确保这些权重可以并行计算。
哈希器设计：在数据进入乘法通道之前，利用哈希器对特征值进行相加，减少乘法操作的数量，从而降低乘法器资源的使用量。
聚类因子优化：引入聚类因子以平衡加法器链与乘法器之间的关系，通过这种方法有效利用乘法器资源，提高计算效率。

3. 组合精度量化方法

为了解决浮点数计算与硬件定点处理的不匹配问题，本文提出了一种组合精度量化方法：

混合精度卷积：在同一卷积层内，使用较低比例的高精度卷积核和较高比例的低精度卷积核，将硬件中难以计算的浮点数转换为定点数表示。这种方法在保证精度的同时，减少了计算复杂度。
硬件优化：对组合精度量化方法进行了硬件层面的修正，包括计算数打包、权重重排、资源分析和并行度探索。通过这些优化，充分利用FPGA的硬件资源，提高卷积运算的并行度。

1.4 实验与性能评估

本文对提出的优化算法进行了实验验证，并对其性能进行了评估：

共享存储映射性能：通过DMA和中断机制实现的共享存储映射框架，减少了CPU与FPGA之间的数据传输延迟，提高了数据映射速度。
乘法器资源利用率：通道适配性聚类哈希方法显著降低了乘法器的资源消耗，提高了FPGA的运算效率。
组合精度量化精度：在保持较高模型精度的同时，组合精度量化方法减少了硬件资源占用，提高了模型在FPGA上的推理速度。

module channel_adaptive_hash (
    input wire clk,
    input wire rst_n,
    input wire [15:0] input_data,   // 输入特征数据
    input wire [15:0] weight_data,  // 卷积核权重数据
    output reg [31:0] conv_result   // 卷积计算结果
);
    // 参数定义
    parameter NUM_CLUSTERS = 4;     // 聚类数
    reg [15:0] cluster_weights [0:NUM_CLUSTERS-1]; // 聚类后的权重
    reg [15:0] hashed_data [0:NUM_CLUSTERS-1];     // 哈希后的输入数据
    reg [31:0] partial_sum [0:NUM_CLUSTERS-1];
    integer i;

    // 初始化权重
    initial begin
        // 这里应根据实际权重进行初始化
        for (i = 0; i < NUM_CLUSTERS; i = i + 1) begin
            cluster_weights[i] <= 16'd0;
        end
    end

    // 数据聚类和哈希
    always @(posedge clk or negedge rst_n) begin
        if (!rst_n) begin
            for (i = 0; i < NUM_CLUSTERS; i = i + 1) begin
                hashed_data[i] <= 16'd0;
                partial_sum[i] <= 32'd0;
            end
            conv_result <= 32'd0;
        end else begin
            // 数据聚类
            for (i = 0; i < NUM_CLUSTERS; i = i + 1) begin
       
                hashed_data[i] <= input_data * cluster_weights[i];
            end

            // 哈希与乘法优化
            for (i = 0; i < NUM_CLUSTERS; i = i + 1) begin
                partial_sum[i] <= partial_sum[i] + hashed_data[i];
            end

            // 累加得到卷积结果
            conv_result <= partial_sum[0] + partial_sum[1] + partial_sum[2] + partial_sum[3];
        end
    end
endmodule