DMA/TCM/Cache的理解

cy413026

已于 2024-01-23 19:58:10 修改

阅读量3.4k

点赞数 2

分类专栏：存储及内存文章标签： linux 运维服务器

于 2019-10-21 14:32:15 首次发布

原文链接：https://blog.csdn.net/weibo1230123/article/details/83443326/https://blog.csdn.net/sergeycao/article/details/6030226

版权

存储及内存专栏收录该内容

14 篇文章 7 订阅

订阅专栏

1.DMA

DMA=Direct Memory Access。这是一种通过硬件实现的数据传输机制。简单的说，就是不在CPU的参与下完成数据的传输。
DMA是一种硬件设备。这种设备的工作原理是这样的：
——首先CPU告诉DMA设备，要有一堆数据需要传输，为了效率而请它出马。（DMA请求）
——DMA收到CPU的消息，开始准备。此时CPU把数据源地址、数据目标地址、传输数据量、传输模式等等参数告诉它。（DMA初始化）
——DMA初始化完，向CPU发送消息“借你的总线用一用，我要开始传输数据了！”（总线出借，DMA启动）
——CPU收到消息后，暂时切断自己与总线的联系。DMA开始传输数据。（DMA数据）
——DMA传输完数据之后，向CPU发送消息“搞定了！总线还给你。”（总线归还）
——CPU说：“干得好！老将出马一个顶俩！辛苦了，你先歇着吧。”DMA设备停止。CPU该干啥干啥。
由于是硬件实现的，所以DMA的速度非常快。快到什么程度呢？在DS上，尤其是数据量非常大的时候，相比于CPU当中介，效率能够提高一百万倍以上。
由于DMA的速度是如此之快，所以大量的数据传输，一般都要求使用DMA。

2.TCM

TCM=Tightly Coupled Memory，是一种高速缓存，据说是被直接集成在CPU芯片中。DS有两种TCM，分别是ITCM（Instruction TCM）和DTCM（Data TCM）。

注意：

1.内存支持列表中，内存详细参数里，SS指的是单面内存，DS指的是双面内存。内存一共有两面，根据内存总容量和内存芯片的存储容量，内存厂家会生产双面内存和单面内存，也就是内存的两面都有存储芯片，或者只有一面有存储芯片。单双面内存在兼容性上有一定区别，所以会单独列出来。

2。ITCM是cortex内核中指令传输总线，DTCM是cortex内核中数据传输总线
是cpu内核同flash及sram之间传输指令和数据的通道，指令的取指和执行及数据的读写在性能及管理上存在差异性，因而需要予以区分。

由于是高速缓存，所以这两块内存区域被当做特殊的用途。比如某些对时间要求非常严格的代码，就可以被放到ITCM中执行。这可以有效地提高运行速度。某些需要频繁存取的数据，也可以放到DTCM中以节省存取时间。
怎么样把代码放到ITCM中？有两种方法。一种是使用gcc特有的“属性标签”，将指定代码赋予“ITCM”属性，此时该代码会被载入ITCM中执行。还有一种方法是直接将.c源文件改成.itcm.c，此时源文件会被直接编译成在ITCM中运行的目标文件。
而DTCM就方便得多了。虽然两个TCM都是可映射的，也就是说，它们的地址并非固定，但是一般会将其分别映射到固定地址。既然已经有了固定地址，那么就可以很轻松地访问了。不过，正如刚才所说的，这两块内存空间都是有特殊用途的，所以不建议直接访问。相比于ITCM来说，DTCM更加重要。因为在这块内存中，存在着一个非常重要的对象——栈。局部变量和函数调用的参数，就是靠栈进行传递的。由于DMA无法访问TCM，所以也就无法访问栈。又由于局部变量是被开辟到栈中，所以DMA也无法对局部变量进行传递。

2.1 对ARM紧致内存TCM的理解

摘自对ARM紧致内存TCM的理解

ARM 的ram包括Sram，Dram，TCM。
TCM是一个固定大小的RAM，紧密地耦合至处理器内核，提供与cache相当的性能，相比于cache的优点是，程序代码可以精确地控制什么函数或代码放在那儿(RAM里)。当然TCM永远不会被踢出主存储器，因此，他会有一个被用户预设的性能，而不是象cache那样是统计特性的性能提高。
TCM对于以下几种情况的代码是非常有用、也是需要的：可预见的实时处理（中断处理）、时间可预见（加密算法）、避免cache分析（加密算法）、或者只是要求高性能的代码（编解码功能）。随着cache大小的增加以及总线性能的规模，TCM将会变得越来越不重要，但是他提供了一个让你权衡的机会
那么，哪一个更好呢？他取决于你的应用。Cache是一个通用目的的加速器，他会加速你的所有代码，而不依赖于存储方式。TCM只会加速你有意放入TCM的代码，其余的其他代码只能通过cache加速。Cache是一个通用目的解决方案，TCM在某些特殊情况下是非常有用的。假如你不认为需要TCM的话，那么你可能就不需要了，转而加大你的cache，从而加速运行于内核上的所有软件代码
紧致内存是指片上快速存储区，与片上缓存具有同等的性能，但因为程序可完全控制紧致内存，因而比统计复用的缓存有更好的可预测性。这是ARM5TE引入的特性，目的是通过这一快速的存储区，一方面提高某些关键代码（如中断处理函数）的性能，另方面使存储访问延迟保持一致，这是实时性应用所要求的。ARM6对TCM操作做了进一步的规范。

TCM的应用领域：可预测的实时处理（中断处理）、避免缓存分析（加密算法）、或单纯的性能提高（处理器侧编解码）等。

如同缓存的哈佛结构，指令TCM和数据TCM是分开的。TCM有两种使用方式：作为快缓存使用，和作为本地内存使用。

本地内存
这时，TCM被用作更快速的内存，如同一般的RAM。因为指令段有时也是数据访问的对象，指令TCM实际上是指令数据一体化TCM。对TCM写操作后和后续对此写操作的依赖指令之间必须跟一个阻塞操作。

快缓存（smartcache）
TCM可以配置成当作外部RAM的缓存使用，对应的外部RAM也要设置可缓存标志。如果被缓存的外部RAM可以由多处理器共享，那么TCM是否与共享数据保持一致并没有规定，而由具体实现厂家决定。

TCM与缓存的内容不会自动保持一致，这意味着TCM映射到的内存区域必须是不缓存的区域。如果一个地址同时落在缓存和TCM内，那么访问这一地址的结果是不能预测的。另一个限制是各个TCM必须要配置成不相交的。

TCM的配置
通过CP15的0、1、9号寄存器进行：
0号寄存器
读CP15的0号寄存器，opcode2为2：
MRC p15, 0, Rd, C0, C0, 2
返回TCM状态寄存器的内容，其中，16－18位代表数据TCM个数，0－3代表指令TCM个数。

1号寄存器
ARM6之前，1号寄存器的16位和18位用于使能数据TCM和指令TCM（ARM946，ARM966），ARM6因为可以使用9号寄存器控制每一块TCM的使能状态，所以1号寄存器的这两个位就过时了，应该置1。

9号寄存器
每个TCM都有一个TCM区域寄存器，设置这个寄存器就可以设置TCM的基址和大小。在设置TCM区域寄存器前，需要设置TCM选择寄存器。
下面是访问这些相关寄存器的指令：

ARM Instruction TCM Region Register
MRC/MCR P15, 0, Rd, C9, C1, 0 Data TCM Region Register
MRC/MCR P15, 0, Rd, C9, C1, 1 Instruction/Unified TCM Region Register
MRC/MCR P15, 0, Rd, C9, C2, 0 TCM Selection Register

TCM区域寄存器的结构：
Base Address (Physical Address)[31-12] SBZ/UNP[11-7] Size[6-2] SC[1] En[0]

其中：
En位是使能位，置1时使能此TCM；
SC位置位表示此TCM被用作快缓存（smartcache），清零表示本地内存；
Size字段是只读的，含义如下：
Size Memory Size Memory
filed size field size
0b00000 0K 0b01101 4M
0b00011 4K 0b01110 8M
0b00100 8K 0b01111 16M
0b00101 16K 0b10000 32M
0b00110 32K 0b10001 64M
0b00111 64K 0b10010 128M
0b01000 128K 0b10011 256M
0b01001 256K 0b10100 512M
0b01010 512K 0b10101 1G
0b01011 1M 0b10110 2G
0b01100 2M 0b10111 4G

3.Cache

众所周知CPU的速度非常快。当CPU访问外设的时候，有些外设速度比较慢，响应CPU比较迟钝。此时CPU要么等外设响应，要么继续干它的活等外设的中断信号。但是有些外设是没有中断的。此时CPU就必须等了。最典型的例子就是内存。当CPU访问内存的时候，并非像你想象的那样，CPU立刻就能访问到它想访问的内存空间，而是有一个“WaitState”的过程。想想看吧，每访问一次内存都要等上几个机器周期，这可不是个好事~~~尤其是，这个“几”可不是简单的一位数，有些时候甚至能达到3位数。
那么这个问题又该怎么解决呢？那就是Cache了。
Cache是集成在CPU内部的极高速的缓存。注意关键词“极高速”。一般来说，它的访问速度几乎可以媲美CPU。这就意味着，CPU在访问Cache的时候几乎不会浪费多少时间。不过，速度的提升是用容量作为代价的。Cache的容量很小。

那么，我们把常用的数据放到Cache中，CPU在访问的时候直接访问Cache就行了，不用耗费时间去访问内存了。
事实上CPU就是这么做的。在读内存的时候，CPU首先读Cache，看看有没有它想要的数据的“副本”，有的话那就太好了，直接拿过去用。没有的话就只好费点功夫去读内存了。而在写内存的时候，CPU直接写到Cache中，而非直接写到内存中。Cache写满了之后，此时才将Cache中的数据更新到内存，同时清空Cache。就像寄信一样，所有的信件会首先攒到邮局，到达一定数量之后才会送出去。
不过这又出现一个问题：假如Cache中有某个内存数据的“副本”，那么CPU在读该内存的时候就会直接使用该副本而不用去读内存。那万一内存中的数据被改写，此时CPU再读该内存，读出来的岂不是那个旧的副本而不是最新的内存数据？同样，假如我想DMA一些数据，谁能保证此时内存中的数据就是最新的数据？很可惜，Cache是完全的黑箱。你不知道它的地址。你也无法直接访问它，但一般系统会提供函数进行cache回写和clear操作，比如

//将整个Data Cache更新到内存

void DC_FlushAll()

// 清空整个Data Cache
void DC_InvalidateAll()
那么，什么时候使用这些函数呢？
在DMA之前，我需要保证数据源内存中的数据是最新的。所以此时需要Flush，从而使DC中的副本能够更新到内存中。
在DMA之后，我需要保证DC中的副本和内存中的数据是相同的。但是NDSLIB没有更新DC的函数，所以没办法，我们只能把DC中的副本杀掉。此时如果CPU访问内存，由于DC中没有副本，所以就只能直接从内存访问并将访问到的值作为DC中副本了。所以此时需要Invalidate