2021年09月_FPGA硅农

12月 11月 10月 09月 08月 07月 06月 05月 03月 02月 01月

原创 PyTorch实现Vision Transformer

ViT详解参见博客blog以下分别是模型代码和训练代码：ViT.py# !/usr/bin/env python# -*- coding:utf-8 -*-import torchfrom torch import nn, einsumimport torch.nn.functional as Ffrom einops import rearrange, repeatclass Residual(nn.Module): def __init__(self,

2021-09-10 20:03:01 1663 3

原创 Xilinx HLS实现AXI DMA

在本文中，我们将通过HLS自己动手实现一个AXI DMA，仿照的是官方AXI DMA IP核的直接模式，即给定发送起始地址和发送长度，以及接收起始地址和接收长度，就能进行一次DMA传输。HLS设计代码如下dma.cpp#include"dma.h"void axi_dma(data_t* axi_rd,data_t* axi_wr,hls::stream<data_t> axis_mm2s,hls::stream<data_t> axis_s2mm, int

2021-09-09 14:13:45 1883 1

原创基于FPGA的MobileNet V2卷积神经网络加速器

MobileNet V2介绍MobileNetV2是在V1基础之上的改进。V1主要思想就是深度可分离卷积。而V2则在V1的基础上，引入了Linear Bottleneck 和 Inverted Residuals。下图是MobileNet V2中的一个基本模块可以看到，该模块由三个卷积组成，第一第三个卷积是标准的1x1卷积，起到升维和降维的作用，而中间的是一个depthwise卷积，每一个卷积层之后，都紧接着一个BN层，以加速网络的收敛。同时，我们观察到，该模块的输入和输出有一个残差连接，即输入和最

2021-09-08 21:15:58 10351 30

原创基于C++的Winograd卷积实现(分片+乒乓)

#include<stdio.h>#include<iostream>#define M 2#define R 3#define N (M+R-1)#define Tm 8#define Tn 4#define Tr 8#define Tc 8using namespace std;typedef float data_t;/*A^T = [1 1 1 00 1 - 1 1]G = [1 0 00.5 0.5 0.5

2021-09-04 16:50:56 760