ubuntu系统&XDMA&HLS-一个简单的gemm小示例

dare_xds

已于 2024-08-06 11:06:50 修改

阅读量694

点赞数 8

文章标签： ubuntu linux fpga开发

于 2024-08-06 11:06:14 首次发布

本文链接：https://blog.csdn.net/dare_xds/article/details/140945008

版权

使用pcie做加速是现在比较火的关于FPGA方向的一个业务，今天用一个简单的示例介绍一下开发的流程及整个加速流程：

硬件：xilinx的k7325t

软件：HLS 2018.3 vivado 2020.2 ubuntu 18.04

FPGA的代码贴在最后面~~~~

1.功能介绍

--两个4x4矩阵相乘，得到一个4x4矩阵结果

因为现在人工智能的关系，卷积运算转矩阵运算可以对整个深度学习的流程进行加速，所以现在的深度学习业务，关于ima2col，gemm，脉动阵列矩阵等等都是需要做深度学习掌握的技术。

2.HLS

本文由于是一个简单的示例，我们在chatGPT找一个:)，简单的矩阵乘法运算。然后生成IP核心（当然还需要自己修改一点点内容），代码如下：

gemm_ip.c

#include <stdio.h>
#include <ap_cint.h>

#define M 4 // 矩阵A的行数
#define N 4 // 矩阵B的列数和矩阵C的行数
#define P 4 // 矩阵B的行数和矩阵C的列数

// 使用HLS标注来指导硬件逻辑
void gemm_ip(int A[M][N], int B[N][P], int C[M][P]) {
#pragma HLS INTERFACE s_axilite port=A bundle=control
#pragma HLS INTERFACE s_axilite port=B bundle=control
#pragma HLS INTERFACE s_axilite port=C bundle=control
#pragma HLS INTERFACE s_axilite port=return bundle=control

    // 循环展开和流水线优化
#pragma HLS PIPELINE
    int i, j, k;
    static int result[M][P];
    // 初始化结果矩阵
    for (i = 0; i < M; i++) {
        for (j = 0; j < P; j++) {
            result[i][j] = 0;
        }
    }
    // 执行矩阵乘法
    for (i = 0; i < M; i++) {
        for (j = 0; j < P; j++) {
            for (k = 0; k < N; k++) {
                result[i][j] += A[i][k] * B[k][j];
            }
            C[i][j] = result[i][j];
        }
    }
}

此代码实现的功能为：两个4x4矩阵相乘，得到一个4x4矩阵的结果。

其中输入及输出都使用axi_lite接口。（因为我们用的xdma，封装的接口就是axi相关的，ip核和XDMA交互更方便）。

tb_gemm_ip.c----测试代码

#include <stdio.h>
#include <ap_cint.h>


#define M 4 // 矩阵A的行数
#define N 4 // 矩阵B的列数和矩阵C的行数
#define P 4 // 矩阵B的行数和矩阵C的列数

// 主函数用于测试
int main() {
    int A[M][N] = {
//            {1, 2 ,3},
//            {5, 6, 7}
        {1, 2, 3, 4},
        {5, 6, 7, 8},
        {9, 10, 11, 12},
        {13, 14, 15, 16}
    };
    int B[N][P] = {
//    		{17, 18},
//			{21, 22},
//			{24, 26}
        {17, 18, 19, 20},
        {21, 22, 23, 24},
        {25, 26, 27, 28},
        {29, 30, 31, 32}
    };
    int C[M][P];

    gemm_ip(A, B, C);

    printf("Result matrix C:\n");
    for (int i = 0; i < M; i++) {
        for (int j = 0; j < P; j++) {
            printf("%d ", C[i][j]);
        }
        printf("\n");
    }

    return 0;
}

下一步我们需要对c代码进行综合：

我们能得到一个综合报告：

从报告中，我们可以到ip核的相关信息：

运算的花费时间及延迟：

消耗的FPGA资源：

以及使用此IP核的相关信号接口：

我们在生成一个IP核的时候，可能不知道怎么去使用，我们可以使用HLS的C/RTL 联合仿真，这里我用的是modelsim，也可以用vivado自带的仿真工具，看下波形图：

看到这个，表示联合仿真完成。

然后我们去找到波形图文件，右键open，然后打开：

找到DUT，然后查看IP核对应的输入输出接口的波形：

首先我们看下aw和w通道：

我们有两个输入矩阵，从波形图可以看出：

1.每个矩阵一共16个数据需要打入。

2.A矩阵的地址从40开始。

3.B矩阵的地址从80开始。

4.相邻两个数据之间隔了4，因为我们数据是32位（4个字节）。

5.最后需要往地址0传入1，作为启动信号。

然后我们看下ar和r通道：

1.这里写入完数据之后，等待一段时间。

2.上面写入最后一个数据的地址是bc，所以这里从c0开始读。

3.中间穿插地址0的读取。

4.这里读出来的数据需要和实际运算数据进行对比。

进行数据比对之后，如果正确，那证明这个HLS是成功的。

接着我们生成IP核：

生成之后，我们找到这个IP核：

解压出来，然后我们在工程里面进行导入：

添加之后，我们就可以在BD或者IP Catalog里面找到这个IP核：

我们HLS的部分就完成了~

3.FPGA部分

a.XDMA IP核生成

我们先例化一个XDMA IP核：

lane选一根就行了，因为是一个小测试，实际开发根据需求来配置。

这里我们使用AXI_MEmoryMapped，其实用AXI_Stream也可以会更简单一些。不过作者为了练习，所以用的mm。

后面几页的配置就是最基础的了，因为这个例子用不到。通道（H2C C2H）也只用了一对。

这里面最重要的IP核就是XDMA，其他的就是两个FIFO，一个用来缓存FPGA接收的数据，一个缓存FPGA发送的数据。

这里就不提出来了。

b.简单介绍一下数据流的走向：

上位机发送32个字节的数据（两个4x4矩阵，32个8bit数据）----> 通过H2C(Host to card)通道传输到FPGA---->数据流通过XDMA IP核桥接的AXI接口进行输出（4个64bit数据）---->经过rx_fifo（4个64bit数据）---->输出到gemm_ip核进行加速运算（32个32bit数据）--->运算结果输出到tx_fifo（16个32bit数据）--->根据axi_full接口的ar(读地址)和r(读数据)通道进行输出（16个64bit数据）--->上位机接收到数据，存入一个buffer，然后从buffer取出存入一个bin文件。

注意：这里还需要注意一下大端序和小端序的问题，返回数据的字节需要调整位置。