定制AI加速器设计
Vits AI Optimizer
剪枝、量化、定点化
XIR AI编译器
输入模型–翻译为XIR指令集–编译–执行
DPU
片上互联网、传感器接口
versal:各种API接口
IP核、工具链
DAC-SDC 2020冠军队伍分享
异构计算:
数据结构、操作系统、计算机体系结构
FPGA体系结构
软硬件协同设计
HLS高层次综合
ultra96
VGG
FPS:280
精度(IOU):0.731
功耗:4.2W
参数量:0.21M
计算量:184M
int4
自顶向下:模型构建、模型压缩
自底向下:模型构建、模型搜索
设计思路:
减少外储访问、提高并行度
模型压缩、低比特量化、放在片上
滑动窗口
line buffer
多核、负载均衡减少读图时间
HBM性能优化
memory typs: DDR3\DDR4\HBM