如何消除CACHE对DMA的影响?

最新推荐文章于 2022-07-04 15:14:51 发布

软件框架设计

最新推荐文章于 2022-07-04 15:14:51 发布

阅读量583

点赞数 1

随着社会的发展、人们生活水平的提高，人们对嵌入式计算机应用的要求也越来越高。因此，对嵌入式系统的性能要求也越来越高。明显体现在嵌入式系统的ＣＰＵ速度的不断提高上。但问题也随之而来，嵌入式ＣＰＵ的主频不断地提高，一方面加强了ＣＰＵ的处理能力，另一方面，在速度上造成了与慢速的系统存储器极不相配的情况，从而影响了整个系统的性能。

为了解决这个问题，引入了ＣＡＣＨＥ技术。ＣＡＣＨＥ是一种高速缓冲存储器，是为了解决ＣＰＵ和主存之间速度不匹配而采用的一项重要技术。通过在主存和高速ＣＰＵ之间设置一个小容量的高速存储器，在其中存放ＣＰＵ常用的指令和数据，ＣＰＵ对存储器的访问主要体现在对ＳＲＡＭ的存取，ＣＰＵ可以不必加等待状态而保持高速操作。采用ＣＡＣＨＥ技术，解决了ＣＰＵ与主存之间速度不匹配的问题；但它又带来了一些其它问题，如本文将提到的一致性问题。

１问题的发现与原因

在进行某嵌入式系统项目的开发过程中，有一个环节需要使用ＤＭＡ方式进行数据传输。当程序运行后，发现传到目的地的数据块中经常会有一些错误的字节。如：数据本应为０００１０２０３０４０５０６０７０８０９０Ａ０Ｂ．．．（１６进制），结果却是０００１０２０３０００００００００８０９０Ａ０Ｂ．．．。在某些环节也出现了类似的问题。例如，通过ＨＤＬＣ通道向外发送数据，发送的总是缓冲区初始化时的内容，实际要发送的数据总是发不出去，但使用调试工具看内存中的数据，却是正确的。

经过一段时间的调试，发现出现这种现象的环节都使用了ＤＭＡ传输数据。在通过ＨＤＬＣ通道发送数据的例子中，ＨＤＬＣ通道内部也是用ＤＭＡ方式从内存直接读数据并向外发送。经过分析，认为问题的原因是出在ＣＡＣＨＥ上，是由于ＣＡＣＨＥ数据与内存数据的不一致性造成的。

所谓ＣＡＣＨＥ数据与内存数据的不一致性，是指：在采用ＣＡＣＨＥ的系统中，同样一个数据可能既存在于ＣＡＣＨＥ中，也存在于主存中，数据一样则具有一致性，数据若不一样就叫做不一致性。具体表现在两个方面：（１）更新时可能ＣＡＣＨＥ中的数据更新，而主存未更新，则造成数据丢失；

（２）在有ＤＭＡ控制器的系统和多处理器系统中，有多个部件可以访问主存。这时，可能其中有些部件是直接访问主存，也可能每个ＤＭＡ部件和处理器配置一个ＣＡＣＨＥ。这样，主存的一个区块可能对应于多个ＣＡＣＨＥ中的一个区块。于是会产生主存中的数据被某个总线部件更新过，而某个ＣＡＣＨＥ中的内容未更新，造成数据过时。２问题的分析

要解释这个问题，首先要了解ＣＡＣＨＥ的工作模式。ＣＡＣＨＥ的基本工作模式有两种：ｗｒｉｔｅ－ｔｈｒｏｕｇｈ模式和ｃｏｐｙｂａｃｋ模式。在ｗｒｉｔｅ－ｔｈｒｏｕｇｈ模式下，所有的写操作都写入ＣＡＣＨＥ和ＲＡＭ，保证了ＣＡＣＨＥ和ＲＡＭ的一致。然而，每次对ＲＡＭ都有写操作会使处理器的处理能力降低，并且占用总线带宽。在ｃｏｐｙｂａｃｋ模式下，写操作只写入ＣＡＣＨＥ，不写入ＲＡＭ，从而提高了处理器性能和总线带宽。ｃｏｐｙｂａｃｋ模式下，ＣＡＣＨＥ中的内容只有在需要的时候才写到ＲＡＭ中。当ＣＡＣＨＥ中无可用空间时，一般使用最近最少使用算法（ＬＲＵ）来决定哪一个ＣＡＣＨＥ项被替换。ｃｏｐｙｂａｃｋ模式提供了很高的系统性能，但是需要更多的一致性作保证。为了便于理解，给出一个使用了ＣＡＣＨＥ的系统的逻辑框图，如图１所示。该系统中两个地方会发生ＣＡＣＨＥ的不一致性：

(１)数据ＣＡＣＨＥ／ＲＡＭ

数据ＣＡＣＨＥ与ＲＡＭ之间的问题源于处理器和其他总线控制器对ＲＡＭ的异步读写访问。ＤＭＡ设备和其他总线控制器对ＲＡＭ的访问是引起ＣＡＣＨＥ一致性问题的主要原因，这个问题可以通过在程序中加入一些代码来解决。

(２)共享ＣＡＣＨＥＬＩＮＥ

当一个ＣＡＣＨＥＬＩＮＥ被两个以上的线程共享时，也会产生一致性问题。当某个线程使一个ＣＡＣＨＥＬＩＮＥ无效时，这个ＣＡＣＨＥＬＩＮＥ中的一些项可能属于另外一个线程。这个问题也可以通过一定的方法来避免，只要在分配内存时大小是ＣＡＣＨＥＬＩＮＥ大小的整数倍即可。

在哈佛体系结构、ｃｏｐｙｂａｃｋ模式和无软件干预的前提下，最佳的保持一致性的方法就是使用具有总线监听能力的硬件。将ＣＡＣＨＥ、ＲＡＭ、ＤＭＡ设备和其它所有的总线主控设备都连到一个物理总线上，以使ＣＡＣＨＥ可以对该总线上的总线交互过程进行监听，ＣＡＣＨＥ将对总线上的地址周期和控制（读／写）比特监听，数据周期则被延迟到需要时才进行。当ＣＡＣＨＥ中的一项被一个异步操作修改时，该ＣＡＣＨＥ项就会被标为无效。如果处理器对一个已经被标为无效的ＣＡＣＨＥ项进行访问时，ＣＡＣＨＥ就会从ＲＡＭ中重新载入有效数据。在ｃｏｐｙｂａｃｋ模式下，处理器对ＣＡＣＨＥ进行写操作时，ＲＡＭ相应地址中的内容就变成过时。如果另外一个设备想访问ＲＡＭ中的这部分内容，ＣＡＣＨＥ就会抢占该访问周期，将有效的数据写入ＲＡＭ。然后被抢占的访问周期重新开始并将读到ＲＡＭ中的有效数据。但是，目前提供监听能力的板子并不多。

３解决的方法

根据上面的分析和讨论，可见问题正是由数据ＣＡＣＨＥ／ＲＡＭ的不一致性引起的。虽然关掉ＣＡＣＨＥ就可以解决一致性的问题，并且能够减小程序开发的复杂度。但是一个高性能的系统是需要ＣＡＣＨＥ的，关掉ＣＡＣＨＥ会大大降低系统的性能。因此，本文仅讨论在程序中加入代码来克服一致性问题的方法。可以采用以下几种加入代码的方法来解决一致性的问题（本文使用ＷＩＮＤＲＩＶＥＲ公司的嵌入式实时多任务操作系统ＶｘＷＯＲＫＳ，下面的函数都是ＶｘＷＯＲＫＳ提供的）：

（１）对于时间上不是那么关键的程序段，可以先用下面的代码维护数据ＣＡＣＨＥ的一致性。

ｃａｃｈｅＩｎｖａｌｉｄａｔｅ（ＤＡＴＡ＿ＣＡＣＨＥ，ａｄｄｒｅｓｓ，ｂｙｔｅｓ）；
／* 输入缓冲区*／

．．．

ｃａｃｈｅＦｌｕｓｈ（ＤＡＴＡ＿ＣＡＣＨＥ，ａｄｄｒｅｓｓ，ｂｙｔｅｓ）；
／*输出缓冲区*／

（２）对于时间上比较关键的程序段采用如下原则：在每次使用输出缓冲区前将其更新；在每次使用输入缓冲区前使其无效。

将缓冲区标示为"ｎｏｎ－ｃａｃｈｅａｂｌｅ"可以防止一致性问题，这需要ＭＭＵ支持。在分配缓冲区时，将其标示为"ｎｏｎ－ｃａｃｈｅａｂｌｅ"即可。然而，动态缓冲区在释放时要标为"ｃａｃｈｅａｂｌｅ"，否则内存总会产生大量的缓冲区碎片。

下面给出一个高性能的驱动程序例子，它把更新／无效的概念进行了扩展。不是对整个ＣＡＣＨＥ系统，而是对每一个缓冲区都这样做。即通过分配对ＣＡＣＨＥ安全的缓冲区，在一个缓冲区的基础上操作，从而防止了不需要的更新／无效操作。在这个例子中使用了ＣＡＣＨＥ库中的函数ｃａｃｈｅＤＭＡＭａｌｌｏｃ（），宏ＣＡＣＨＥ＿ＤＭＡ＿ＩＮＶＡＬＩＤＡＴＥ和ＣＡＣＨＥ＿ＤＭＡ＿ＦＬＵＳＨ实现一致性。在第４行调用函数ｃａｃｈｅＤＭＡＭａｌｌｏｃ（）后，如果指针返回为非空，则说明分配到了一块对于一致性问题来说是安全的缓冲区。第７行驱动程序在缓冲区中写入要传给外部设备的数据，在第９行准备传给外设之前，驱动程序必须更新数据ＣＡＣＨＥ以保证要传的数据是在内存中，而不是在ＣＡＣＨＥ中。当驱动程序准备读外设传给内存的数据，在第１３行驱动程序处理这些数据之前，必须使数据ＣＡＣＨＥ中对应于输入缓冲区的那部分无效以消除这些包含过时内容的条目。之后，驱动程序才能安全地处理从内存中取来的输入数据。

１：ＳＴＡＴＵＳｄｒｖＥｘａｍｐｌｅ（ｐＢｕｆ）
２：ｖｏｉｄ *ｐＢｕｆ ／*缓冲区指针 *／
３：{
４： ｐＢｕｆ＝ｃａｃｈｅＤＭＡＭａｌｌｏｃ（ＢＵＦ＿ＳＩＺＥ）；
５： ｉｆ（ｐＢｕｆ＝＝ＮＵＬＬ）
６： ｒｅｔｕｒｎ（ＥＲＲＯＲ）； ／*内存分配失败*／
７：／*其它初始化代码和向发送缓冲区填数据*／
８： ＣＡＣＨＥ＿ＤＭＡ＿ＦＬＵＳＨ（ｐＢｕｆ，ＢＵＦ＿ＳＩＺＥ）；
９： ｄｒｖＷｒｉｔｅ（ｐＢｕｆ）； ／*向外设发送数据*／
１０：…… ／*其它代码 *／
１１：ｄｒｖＷａｉｔ（）；  ／*等待外设来的数据*／
１２：ＣＡＣＨＥ＿ＤＭＡ＿ＩＮＶＡＬＩＤＡＴＥ（ｐＢｕｆ，ＢＵＦ＿ＳＩＺＥ）；
１３： ／*处理外设来的数据 *／
１４：ｃａｃｈｅＤＭＡＦｒｅｅ（ｐＢｕｆ）； ／*释放内存 *／
１５：ｒｅｔｕｒｎ（ＯＫ）；
１６：}

――――――――――――――――――――――――――――――――――――――

mpc8260中的dma在cache打开时运行不正常，原因何在？ <--- 〖回复该帖子〗

It is possible to make a driver more efficient by combining cache-safe buffer allocation and cache-entry flushing or invalidation. The idea is to flush or invalidate a cache entry only when absolutely necessary. To address issues of cache coherency for static buffers, use cacheDmaMalloc( ).