- 博客(4)
- 资源 (8)
- 收藏
- 关注
原创 PyTorch实现Vision Transformer
ViT详解参见博客blog以下分别是模型代码和训练代码:ViT.py# !/usr/bin/env python# -*- coding:utf-8 -*-import torchfrom torch import nn, einsumimport torch.nn.functional as Ffrom einops import rearrange, repeatclass Residual(nn.Module): def __init__(self,
2021-09-10 20:03:01 1663 3
原创 Xilinx HLS实现AXI DMA
在本文中,我们将通过HLS自己动手实现一个AXI DMA,仿照的是官方AXI DMA IP核的直接模式,即给定发送起始地址和发送长度,以及接收起始地址和接收长度,就能进行一次DMA传输。HLS设计代码如下dma.cpp#include"dma.h"void axi_dma(data_t* axi_rd,data_t* axi_wr,hls::stream<data_t> axis_mm2s,hls::stream<data_t> axis_s2mm, int
2021-09-09 14:13:45 1883 1
原创 基于FPGA的MobileNet V2卷积神经网络加速器
MobileNet V2介绍MobileNetV2是在V1基础之上的改进。V1主要思想就是深度可分离卷积。而V2则在V1的基础上,引入了Linear Bottleneck 和 Inverted Residuals。下图是MobileNet V2中的一个基本模块可以看到,该模块由三个卷积组成,第一第三个卷积是标准的1x1卷积,起到升维和降维的作用,而中间的是一个depthwise卷积,每一个卷积层之后,都紧接着一个BN层,以加速网络的收敛。同时,我们观察到,该模块的输入和输出有一个残差连接,即输入和最
2021-09-08 21:15:58 10351 30
原创 基于C++的Winograd卷积实现(分片+乒乓)
#include<stdio.h>#include<iostream>#define M 2#define R 3#define N (M+R-1)#define Tm 8#define Tn 4#define Tr 8#define Tc 8using namespace std;typedef float data_t;/*A^T = [1 1 1 00 1 - 1 1]G = [1 0 00.5 0.5 0.5
2021-09-04 16:50:56 760
基于FPGA的HLS CNN加速器
2022-03-26
pingpang_block_mm.rar
2020-11-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人