AI嵌入式K210项目（18）-卷积人工神经网络硬件加速器 KPU

叶与花语

已于 2024-01-29 17:49:04 修改

阅读量3k

点赞数 24

分类专栏： K210开发板文章标签：人工智能嵌入式AI AI 嵌入式 KPU 神经网络加速器

于 2024-01-24 09:49:44 首次发布

本文链接：https://blog.csdn.net/bin_zhang1/article/details/135656147

版权

文章目录

前言
一、K210的KPU
二、实验过程
总结

前言

K210内置了丰富的加速器，包括神经网络处理器 (KPU)，AES(高级加密加速器)，APU 麦克风阵列语音数据加速计算处理器，现场可编程 IO 阵列 (FPIOA)，数字摄像头接口 (DVP)，相对于软件可以极大的提高 AES 运算速度，快速傅里叶变换加速器 (FFT)，安全散列算法加速器 (SHA256)。
本文介绍内置的卷积人工神经网络硬件加速器 KPU；

一、K210的KPU

KPU 是通用的神经网络处理器，它可以在低功耗的情况下实现卷积神经网络计算，实时获取被检测目
标的大小、坐标和种类，对人脸或者物体进行检测和分类。使用 kpu 时，必须结合 model compiler。

KPU 是通用神经网络处理器，内置卷积、批归一化、激活、池化运算单元，可以对人脸或物体进行实
时检测，具体特性如下：
• 支持主流训练框架按照特定限制规则训练出来的定点化模型
• 对网络层数无直接限制，支持每层卷积神经网络参数单独配置，包括输入输出通道数目、输入输
出行宽列高
• 支持两种卷积内核 1x1 和 3x3
• 支持任意形式的激活函数
• 实时工作时最大支持神经网络参数大小为 5.5MiB 到 5.9MiB
• 非实时工作时最大支持网络参数大小为（Flash 容量-软件体积）
在这里插入图片描述
KPU 的内部结构如下图所示：

对应的头文件 kpu.h

为用户提供以下接口：

• kpu_task_init (0.6.0 以后不再支持，请使用kpu_single_task_init)：初始化kpu 任务句柄，该函数具体实现在model compiler 生成的gencode_output.c 中。

• kpu_run (0.6.0 以后不再支持，请使用kpu_start)：启动KPU，进行AI 运算。

• kpu_get_output_buf (0.6.0 以后不再支持)：获取KPU 输出结果的缓存。

• kpu_release_output_buf (0.6.0 以后不再支持)：释放KPU 输出结果缓存。

• kpu_start：启动KPU，进行AI 运算。

• kpu_single_task_init：初始化kpu 任务句柄。

• kpu_single_task_deinit：注销kpu 任务。

• kpu_model_load_from_buffer：解析kmodel 并初始化kpu 句柄。

• kpu_load_kmodel：加载kmodel，需要与nncase 配合使用。

• kpu_model_free：释放kpu 资源。

• kpu_get_output：获取KPU 最终处理的结果。

• kpu_run_kmodel：运行kmodel。

二、实验过程

本实验代码较多，这里只贴出main.c的内容，其余内容稍后上传到gitCode上https://gitcode.com/bin_zhangg0n/K210/tree/main

#include <stdio.h>
#include <string.h>
#include <unistd.h>
#include <stdlib.h>
#include "dvp.h"
#include "fpioa.h"
#include "lcd.h"
#include "ov2640.h"
#include "ov9655.h"
#include "plic.h"
#include "sysctl.h"
#include "uarths.h"
#include "st7789.h"
#include "dvp_cam.h"
#include "utils.h"
#include "kpu.h"
#include "l_conv.h"
#include "sleep.h"
#include "encoding.h"
#include "gpiohs.h"
#include "pin_config.h"
#include "dvp_cam.h"


int key_flag = 0;
gpio_pin_value_t key_state = 1;
volatile uint8_t g_ai_done_flag;
uint8_t g_ai_buf_out[320 * 240 * 3] __attribute__((aligned(128)));

/* KPU完成 */
static int kpu_done(void *ctx)
{
   
	g_ai_done_flag = 1;
	return 0;
}

//  卷积	池化	批归一化	激活	输出偏置
float conv_data[9*3*3] ={
   
//origin
//R
0,0,0,0,1,0,0,0,0,
0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,
//G
0,0,0,0,0,0,0,0,0,
0,0,0,0,1,0,0,0,0,
0,0,0,0,0,0,0,0,0,
//B
0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,
0,0,0,0,1,0,0,0,0,
};

int demo_index=0;
const float conv_data_demo[4][9*3*3] ={
   
{
   	//origin
//R
0,0,0,0,1,0,0,0,0,