STM32H7的Cache与Buffer

最新推荐文章于 2024-09-28 20:40:35 发布

monei3525

最新推荐文章于 2024-09-28 20:40:35 发布

阅读量3k

点赞数 7

分类专栏：嵌入式学习

本文链接：https://blog.csdn.net/monei3525/article/details/109166516

版权

嵌入式学习专栏收录该内容

6 篇文章 1 订阅

订阅专栏

STM32H7的Cache与Buffer

TCM和Cache的区别

…使用lwip用到了mpu，对于内存管理产生了很多的疑问，需要统一解决一下，不然用起来总有些不安。

STM32H7使用的内存不是连续的，而是被划分为多段。

MEMORY
{
	DTCMRAM (xrw)     : ORIGIN = 0x20000000, LENGTH = 128K //高速段，cpu独享
	RAM_D1 (xrw)      : ORIGIN = 0x24000000, LENGTH = 512K
	RAM_D2 (xrw)      : ORIGIN = 0x30000000, LENGTH = 288K
	RAM_D3 (xrw)      : ORIGIN = 0x38000000, LENGTH = 64K
	ITCMRAM (xrw)     : ORIGIN = 0x00000000, LENGTH = 64K //高速段，cpu独享
	FLASH (rx)        : ORIGIN = 0x8000000, LENGTH = 128K
}

TCM内存段是和CPU同频率的，不需要也不能用Cache。用好TCM的优先级应该排在用好Cache的前面。
Cache处于核心里面，作为低速内存加速器使用，获得增益最大的是位于AXI总线上的比如内部Flash、内部SRAM、通过FMC或者QSPI控制器连接的外部sram。Cache使得低速Sram获取与高速TCM差不多的速度。使用Cache加速很有意义，不然400M的cpu变200M，相当于H7变F4，选择H7的cpu将变得没有意义。
在这里插入图片描述

内存类型

内存类型分为Normal以及Device和Strongly-ordered,

内存类型	特点
Normal	处理器可以进行乱序处理，或者推理式读取；可通过Memory attribute配置不同的cache属性，如（WT，WA，WB，Non-cacheable）.当cache被evicted的时候，cache内容被传递到AXIM总线上的write-buffer（ARM Cortex-M7 Processor Technical Reference Manual P100）
Device 和Strongly-Ordered	处理器保持顺序处理，只能是(Non-cacheable)，两种类型区别在于对Device类型的内存写操作可以使用write-buffer，而Strongly-Ordered类型的不可以。当执行写操作到内存时，如果类型是Device，cpu写到buffer后即认为操作结束转而执行后续指令；如果类型是Strongly-Ordered，cpu需要写到内存后才能执行后续指令。写入buffer只要一个时钟周期，而写入内存要多个时钟周期，显然Device效率更高。缺点是失去了同步实时性，如果指令中间出错就不能正确报告错误。

内存类型

特点

Normal

处理器可以进行乱序处理，或者推理式读取；可通过Memory attribute配置不同的cache属性，如（WT，WA，WB，Non-cacheable）.当cache被evicted的时候，cache内容被传递到AXIM总线上的write-buffer（ARM Cortex-M7 Processor Technical Reference Manual P100）

Device 和Strongly-Ordered

处理器保持顺序处理，只能是(Non-cacheable)，两种类型区别在于对Device类型的内存写操作可以使用write-buffer，而Strongly-Ordered类型的不可以。当执行写操作到内存时，如果类型是Device，cpu写到buffer后即认为操作结束转而执行后续指令；如果类型是Strongly-Ordered，cpu需要写到内存后才能执行后续指令。写入buffer只要一个时钟周期，而写入内存要多个时钟周期，显然Device效率更高。缺点是失去了同步实时性，如果指令中间出错就不能正确报告错误。

在这里插入图片描述

Write-buffer是什么？

Device和Strongly-Ordered类型时候提到了write-buffer，它属于cpu核心，cache经常与write-buffer一起使用，使用writer-buffer的目的是将处理器和cache从较慢的对主存的写操作中脱离出来。
Write buffer可以缓存8个word的数据和4个独立的地址，可以enable或者disable使用ARM核心控制寄存器 W的bit3。同时还要受到内存管理页表的一个bit控制，所以使用Write-Buffer，MMU必须已经使能（控制寄存器的bit0）。MMU-Memory Management Unit
通常情况下的配置都是主内存允许bufferable，但是I/O 空间 unbufferable
当CPU执行一个写操作时，根据配置情况执行写入操作。

写入操作	过程
Bufferable write	CPU将数据以FCLK的速度放到writebuffer里面，然后CPU去执行其他任务。然后writebuffer执行并行外部写操作。假如buffer是满的，cpu进入stall状态，直到有足够的buffer空间。
Unbufferable writes	CPU进入stalled状态，知道writebuffer空下来而且外部写入完成，可能耗费几个外部时钟循环。
Read-lock-write	采用Unbufferable write的方式，即使被配置为buffered。

在这里插入图片描述
如果程序中使用DMB and DSB，处理器会等到write-buffer内指令完成，再进行后续指令操作，如果过程中发生中断，中断返回后继续write-buffer清空等待。

DMB或者DSB被称为显式限制操作 explicit barrier。

在这里插入图片描述

Memory Attrabute

Normal模式下可以设定的几种

类型	特点
Write allocation(WA)	写操作出现catch miss情况时，会重新申请一个cache line，然后写到里面。
No Write allocation	写操作出现catch miss情况时，直接写到内存里面，只有出现读cache miss才会重新申请cache line。
Write-back（WB）	写操作出现catch hit情况时，标识为dirty，当cache line被evict时候，写到内存或者被代码显式clean-flush。
Write-through(WT)	写操作同时更新cache和内存。

Shareable属性

共享属性设计的意义在于，多个bus master读写情况下需要cache保持同步，对于CortexM7，只有L1-Cache，如果设置了Shared相当于non-cacheable。
在这里插入图片描述

内核操作函数

内核操作函数包含以下几种，主要包含两种操作：clean和invalidate。
clean：将cache中的信息写到sram，相当于用cache信息覆盖sram；
invalidate：使cache失效，相当于用sram信息覆盖cache；
二者为相反的操作。

在这里插入图片描述

内存对齐问题

使用cache时，dma的buffer必须32byte对齐，不然可能会出现问题。比如下面的情况：

typedef struct
{
    __attribute__ ((aligned (32))) uint8_t rx_buffer[BUFFER_SIZE];//用于buffer
    bool rx_xfer_done;                                     //用于记录dma已经被正确传输
}st_dma_xfer

void XDMAC_Handler(void)
{
    uint32_t dma_status;
    dma_status = xdmac_channel_get_interrupt_status(XDMAC, XDMA_CH_RX);
    if (dma_status & XDMAC_CIS_BIS)
    {
      g_st_dma_xfer.rx_xfer_done = true;
      SCB_InvalidateDCache_by_Addr((uint32_t*)g_st_dma_xfer.rx_buffer, DMA_TRANSFER_SIZE);
    }
}

如果DMA的buffer只有16字节，DMA读取操作后，DMA控制器将接收到的数据写到了sram里面，然后进入DMA接收中断函数，cpu把成功读取的标识bool变量写为true，实际上写操作只是写在D-Cache里面，暂时没有写到sram。
在这里插入图片描述

如果此时cpu需要读取dma内容，需要对Dcache进行invalid操作，32个字节将一起更新，bool变量旧值0将覆盖新值1。cpu读不到中断函数写的bool变量信息。
在这里插入图片描述
可见：
clean操作或者Invalidate操作都可能丢东西，使用上需要注意。经验是如果一段内存用来写dma外设，就不要读它，保证随时都可以clean；同样如果一段内存用来接收DMA外设传入信息，就不要用cpu写它，保证随时都可以invalidate。
在这里插入图片描述