- 博客(7)
- 资源 (12)
- 收藏
- 关注
原创 神经网络处理器优化设计(一)
以Tn=32,Kernel=3*3为例,通道聚合前,第一层卷积计算过程中,一个时钟周期,计算引擎32个输入并行度仅有3个特征图通道参与有效计算,PE计算利用率仅有3/32,造成计算资源浪费;按照图b,对输入通道进行重排和聚合后,在一个时钟周期内,计算引擎可以并行计算27个通道的卷积计算(一个完整3*3卷积窗口重排聚合为27的并行像素),PE计算效率提升为27/32,极大提升加速器吞吐量。需要平衡两者之间的缓存和吞吐速率。神经网络处理器优化设计,涉及到一些特殊和通用处理流程,一是降低硬件成本,二是提高性能。
2024-03-13 10:17:58 443
原创 用户数据的FLASH存储与应用(FPGA架构)
但是对于一些大的网络模型,往往片上RAM受限而无法完全保存权重,因此需要将权重放置在外部DDR或者PSRAM等外部存储器中,等具体需要的时候,从片外load进片上,然后计算完丢弃,重新load下一批次权重。这里就涉及到,当我们的应用固化后,片外DDR存储器权重加载问题,通常包括集中方法,一是上电后,通过PCIE/UART/SD卡等load进DDR;另外,由于涉及对FLASH读控制操作,需要配置FLASH管脚,需要调用STARTUPE2原语,用于对CCLK进行设置,用于该时钟。
2024-03-12 10:40:45 641 1
原创 基于FPGA的PSRAM接口设计与实现
仿真工具采用VCS+Verdi,PSRAM接口控制IP+APS6408L model进行验证。备注:以AP公司的APS6408L为例进行设计分析和验证。
2024-03-08 09:02:29 990 1
原创 基于FPGA的HyperRam接口设计与实现
综合功耗和面积等优势,在一些SWAP应用领域,在满足基本带宽需求的情况下HyperRAM相对DDR具有较大的优势。分别接口在100M/200M/250MHz主频等情况,工作均OK。在250MHz下,Hyperram理论带宽可到500MB/s,基本满足常规对带宽需求应用。针对一些低功耗、低带宽应用(物联网、消费产品、汽车和工业应用等),涉及到外部存储,HyperRAM提供了更简洁的内存解决方案。关于一些详细的信息和指标,具体可见相关Datasheet()典型应用:红外机芯模组等。
2024-03-07 13:30:42 1201 1
原创 神经网络硬件加速器-DPU分析
缓存池根据相关专利,为统一缓存池,与传统的输入缓冲区-计算核阵列-输出缓存区结构不同,其采用统一的缓存池,多通道数据读写调度单元设计。单个计算阵列中包含多个乘法器单元,加法树,非线性计算采用流水线方式设计,通过复制OCP个并行流水线,完成OCP并行度的输出通道卷积运算。DPU通过组合多种并行度来搭配多种卷积架构,DPU卷积架构包括三个维度的并行度:像素并行度/输入通道并行度/输出通道并行度(通常输入通道并行度=输出通道并行度)。:计算阵列包括P个PE,每个PE用于完成P个像素并行度计算;
2023-10-19 09:36:49 877
原创 神经网络硬件加速器-模型分析
尽管神经网络中的计算具有很强的可并行性,但是由于受到计算资源和存储资源的限制,往往不能全部同时映射到单个芯片上,因此需要设计一些调度方法将神经网络映射到计算芯片的计算阵列上依次执行。②计算核心充分复用这些输入数据,更新输出缓存中的所有相关的输出部分和;计算过程中不会再有其他对输出缓存的访问,对于剩余的输出特征图计算,会重复上述。对于某个神经网络加速,通常在有限的片外传输带宽限制下,通过高效的数据调度,驱动尽可能多的计算单元,以实现最高的有效。通道的卷积核权重被充分复用,以更新存储在输出缓存中的。
2023-03-14 08:55:13 784
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人