NVDLA专题11:具体模块介绍——CROSS Channel Data Processor

14 篇文章 3 订阅

概述

交叉通道数据处理器(CDP)沿通道方向执行操作。在NVDLA 1.0 中,通道处理旨在处理局部响应归一化(LRN)层。LRN通过沿通道方向对局部输入区域进行归一化来执行一种横向抑制。归一化函数如下所示

局部区域形状总是1×1×n,数字n是可配置的,其范围是[3,5,7,9],用硬件门实现除法和分数指数等算术函数成本很高,上述等式可以分解为

注意到,可以通过对相应的寄存器进行编程来绕过,以便将CDP视为独立的查找表(LUT)函数,对于RESMO(往复指数和多重运算)f(x)采用查找表方法。

下图显示了通道数据处理子单元的内部模块以及与其他子单元的连接。该图仅用于捕捉想法,并不代表实际的RTL模块边界和层次结构。

通道处理子单元总是与其他处理子单元独立工作。它从PDMA接收输入数据,并向其发送输出数据。由于内存访问限制,输入数据序列是按特定顺序排列的。输入顺序如下图所示,输出顺序与输入顺序相同。

下表显示了当前已知一些网络中的LRN层参数。

stripe edge上的数据元素可被相邻stripe使用,这些数据需要被缓冲,缓冲entry数应为[Max(localregionsize)1]×8 = 7×8 = 56byte。

缓冲区大小估计

在跨通道数据处理子单元时有三个主要缓冲区:激活块中的LUT、读DMA缓冲区和写DMA缓冲区。LUT大小与SDP相同(644Bytes)。

对于读DMA缓冲区,确定其大小有两个限制。第一个是覆盖存储器系统访问延迟,假设是128个周期。另一个是接入带宽,峰值性能情况是每个周期8Bytes(int8中8个元素,int16/fp16中4个元素),因此读DMA缓冲区大小为128×8 = 1kBytes。

功耗考虑

通道数据处理子单元针对NVDLA 1.0中的LRN层。基于对当前网络的分析,通道处理使用率较低。

基于本地响应归一化层数百分比,通道数据处理子单元将在大部分时间空闲。因此,该设计支持单元的时钟门控。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值