以TMS320C6701为例,说明在实时图像处理系统中使用DMA的必要性,同时给出DMA在实时图像处理中几种典型的应用例子 。
实时图像处理系统要求系统必须在有限的时间内完成大量数据的运算。DSP以其独特的哈佛总线结构和并行的存储块结构,将乘法操作与加法操作统一考虑,可以在一个指令周期完成般处理器的多次运算;并且指令系统采用多级流水线操作方式,保证了系统对实时性的要求,因此得以在实时图像处理系统广泛应用。图像处理系统的最大特点就是运算数据量大。大多数情况下,数据量远远大于片内存储器容量,计算过程中必须进行数据的交换。合理使用DMA可以提高数据传输效率,取得事半功倍的效果。本文以TMS320C6701(简称C6701)为例,介绍DMA在图像处理中的几种典型应用。
1 图像处理系统特点与使用DMA的必要性
前面已经提到,图像处理系统的最大特点是就是运算数据量大,数据量往往大于片内存储器容量。不仅如此,图像处理系统之中,运算过程产生的中间数据往往与源数据大小相当,这也限制了片内高速存储区的使用。然而为了提高处理的速度,计算源数据、中间数据必须尽可能多地在片内高速存储区进行,因此,必须使用DMA在片内高速存储区与片外低速存储区之间进行数据交换,以提高数据处理速度。
另外,数据的排列往往不符合程序的要求;必须对数据进行重排达到程序要求;使用DMA对数据重排,可以满足程序要求。与数据重排如出一辙,图像处理中许多操作的基础都是对多重数组的操作,也就是矩阵运算。诸如求逆、取子图等图像处理中经常用到的运算,也可以通过DMA完成。这些运算当然可用C语言编程实现,但是,如果程序实现是一个多重循环,不利于软件流水,而且随着数据量的增加,消耗的时钟周期也会成比例增加;即使使用并行汇编在时钟消耗上可以有所减少,这都是不符合系统实时性要求的。如果通过DMA数据重排,可以轻而易举地实现,而且这个过程CPU只占有一个时钟周期,通过巧妙程序安排,安全可以使数据的传输过程在CPU的后台进行,根本感觉不到DMA的存在。
2 C6x系列DMA简介
TMS320C6701S是TMS320C6000系列的高速浮点数字信号处理信号,是TI公司20世纪90年代后期的最新一代DSP产品。C6701有4个通道自加载的DMA通道,用于数据的DMA传输;另外,1个辅助DMA通道,负责与主机通信。DMA通道可以在没有CPU参与下完成映射空间的数据传输。数据的传输可以是片内存存储器、片内外围部件或外部器件之间的传输。
2.1 DMA控制寄存器
对于C6x系列的DMA,在使用任何一个DMA通道进行数据传输前,都必须设置以下几组寄存器。各寄存器及其功能如下:
*主控寄存器(primary control register)——用于控制DMA状态及传输类型;
*副控寄存器(secondary control register)——用于使能CPU中断,监视DMA通道状态;
*传输计数寄存器(transfer control register)——用于记录传输的单位数目;
*源地址寄存器(source control register)——传输的起始地址
*目标地址寄存器(destination control register)——传输的目的地址;
此外,DMA通道可以使用以下全局DMA寄存器,以完成比较复杂的传输过程:
*全局地址寄存器组(global address register A、B、C和D);
*全局索引寄存器组(global index register A和register A和B)。
全局地址寄存器组共有4个32位寄存器,其作为分裂地址或地址重载值。全局索引寄存器2个32位寄存器。每个寄存器含2个控制域,其中高16位为帧索引域(FRAME INDEX),其值为帧间的地址偏移量,也就是传输完1帧后,地址的调整量;低16位为数据单元索引域(ELEMENT INDEX),其值为帧内地址偏移量,也就是每传输完1个数据单元的地址调整量。全局计数重载计数器与全局索引寄存器结构一样,用于重载DMA通道的传输计数寄存器。全局DMA寄存器可以为任意DMA通道使用,而且同一寄存器可以同时被一个以上的DMA通道使用。
2.2 DMA工作过程简介
DMA是十分复杂的系统,限于篇幅,这里只简要介绍DMA的工作过程。
在C6000系列DMA中,把所传输的一定数量的数据单元(ELEMENT)称为帧(FRAME),帧的大小由传输计数寄存器的低16位数据即单元计数域(ELEMENT COUNT)指定,该寄存器的值通过传输计数寄存器的高16位即帧计数域(FRAME COUNT)指定。当完成1次DMA读操作,ELEMENT COUNT值自动域1;当最后1个数据单元读操作完成时,FRAME COUNT自动减1,此时ELEMENT COUNT的值将被全局计数重载寄存器的ELEMENT COUNT更新;当最后1帧的读操作完成后,传输计数寄存器将被全局计数重载寄存器的值更新。
DMA控制器负责对每个通道的读写传输进行地址计算。在计算机传输地址时,有基本调整和使用全局索引寄存器进行调整2种方式:基本调整是指通过控制域SRC DIR和DST DIR来设置传输地址,按数据字长大小(由ESIZE控制)递增、递减或保持不变;而使用全局索引寄存器调整与基本调整不同,这种模式下,根据传输的数据元素是否当前帧的最后一个来进行地址调整。
在全局索引寄存器调整模式下,地址调整值由全局索引寄存器控制。全局索引寄存器含2个控制域,其中高16位为帧索引域(FRAME INDEX),其值为帧间的地址偏移量,也就是传输完1帧后的地址调整量;低16位为数据单元索引域(ELEMENT INDEX),其值的帧内地址偏移量,也就是每传输完1个数据单元的地址调整量。
3 几种典型的DMA操作及其应用
3.1 块移动
块移动能够将1块连续数据块从一个地址传输到另一个地址,通常用于将数据或程序从外部存储器移到内部存储器。这种块移动是最简单、最常见的DMA工作方式。例如,将1块1K连续的32位数据块从外存(0x02000000)移动至内存(0x80000000)。
相关寄存器的值设置:
Primary control register =0x00000050
Transfer control register =0x00000400
Source control register =0x02000000
Destination control register =0x80000000
其中主控寄存器各控制域设置与意义如下:
DST RELOAD =00 无目标地址重载
SRC RELOAD =00 无源地址重载
EMOD =0
FS =0 无帧同步
TCINT =1 允许中断
PRI =1 DMA优先
WSYNC =00000 无读同步
RSYNC =000 无写同步
RSYNC =00 无写同步
FRAME COUNT =0X000
ELEMENT COUNT =0X0400
INDEX =0 全局计数重载寄存器A
CNT RELOAD =0 全局计数重载寄存器A
SPLIT =00 无分裂地址
ESIZE =00 数据单元4BYTES
DSTDIR =11 索引寄存器方式
SRCDIR =01 地址递增
STATUS =00此位只读
START =00 DMA停止
在主控寄存器的START读中写入01b就可以开始DMA的传输。
3.2 数据重排
往往数据的格式并不符合运算的要求。在这种情况下,可以通过DMA进行数据重新排列,以满足运算的要求。数据重排主要是利用DMA的帧传输方式。数据重排所必需的、最关键的一步是设置全局寄存器,所以,以下讨论的重点就是全局寄存器的设置。
3.2.1 求矩阵转置
图2显示了将一个位于外存16bit的连续数据区,开始地址(0x02000000),数据重排并移至片内存储区,首地址为(0x80000000)前后的排列情况。
在数据重排中,主要是正确设置全局索引寄存器。在这里,可以将1帧看作1个数组,那么数据单元就是数组的元素。因此,如果假设共有F×E的矩阵,即有F帧数据,每帧E个数据单元,每个元素为S(Byte),重排为E×F的矩阵。在这种情况下,源地址递增,目标地址根据全局索引寄存器的值进行调整。在帧内相邻的数据单元传输时,目标地址偏移应为F×S,所以传输完1帧后的地址总偏称为(E-1)×F,因此,下一帧的第1个数据单元地址为在当前的地址减去((E-1)×F-1)×S。也就是说,
*FRAME INDEX应设为-((E-1)×F-1)×S
*ELEMENT INDEX应设为F×S
在上例中寄存器的设置为:
*FRAME INDEX =-((2-1) ×4-1) ×2=0xFFEE
*ELEMENT INDEX=4×2=8
因此,寄存器设置如下:
Primary control register =0x030001D0
Transfer control register =0x00040002
Source control register =0x02000000
Destination control register =0x80000000
Global index register A =0xFFFA0008
Global count reload A =0x00000002
3.2.2 取图像子图
图像处理中,往往要从图像中抠取一定大小的子图,然后对子图进行处理。对于大型图像,尺寸往往超过了DSP系统的片内存储器的大小,这种抠取的操作成了必不可少的步骤。这可以通过使用全局索引寄存器来完成。例如,从一个8×4的图像中抠取一个2×4的子图,如图3所示,其中每个数据单元为1Byte。
可以这样描述:有F1帧数据,每帧数据有E1个数据单元,每个数据单元为S(Byte);从中抠取部分为F2帧数据,每帧数据E2个数据单元,数据单元为S(Byte)。这种情况下,因为完成数据传输后,目标存储区为连续数据,因此目标地址递增;源地址根据全局索引寄存器的值进行调整。帧内相邻的数据单元传输时,源地址偏移应为S;当读完帧的最后一个数据单元,源地址指针跳过(E1-E2)个数据单元,即帧间的地址调整量为((E1-E1)+1)×S。这样全局寄存器的设置:
**FRAME INDEX =((8-4)+1×1=4
*ELEMENT INDEX=1
*FRAME COUNT =2
*ELEMENT INDEX=4
因此,寄存器设置如下:
Primary control register =0x03000270
Transfer control register =0x00020004
Source control register =0x02000000
Destination control register =0x80000000
Global index register A =0x00050001
Global reload register A =0x00000001