STM32H7的Cache与Buffer
TCM和Cache的区别
…使用lwip用到了mpu,对于内存管理产生了很多的疑问,需要统一解决一下,不然用起来总有些不安。
STM32H7使用的内存不是连续的,而是被划分为多段。
MEMORY
{
DTCMRAM (xrw) : ORIGIN = 0x20000000, LENGTH = 128K //高速段,cpu独享
RAM_D1 (xrw) : ORIGIN = 0x24000000, LENGTH = 512K
RAM_D2 (xrw) : ORIGIN = 0x30000000, LENGTH = 288K
RAM_D3 (xrw) : ORIGIN = 0x38000000, LENGTH = 64K
ITCMRAM (xrw) : ORIGIN = 0x00000000, LENGTH = 64K //高速段,cpu独享
FLASH (rx) : ORIGIN = 0x8000000, LENGTH = 128K
}
TCM内存段是和CPU同频率的,不需要也不能用Cache。用好TCM的优先级应该排在用好Cache的前面。
Cache处于核心里面,作为低速内存加速器使用,获得增益最大的是位于AXI总线上的比如内部Flash、内部SRAM、通过FMC或者QSPI控制器连接的外部sram。Cache使得低速Sram获取与高速TCM差不多的速度。使用Cache加速很有意义,不然400M的cpu变200M,相当于H7变F4,选择H7的cpu将变得没有意义。
内存类型
内存类型分为Normal以及Device和Strongly-ordered,
内存类型 | 特点 |
---|---|
Normal | 处理器可以进行乱序处理,或者推理式读取;可通过Memory attribute配置不同的cache属性,如(WT,WA,WB,Non-cacheable).当cache被evicted的时候,cache内容被传递到AXIM总线上的write-buffer(ARM Cortex-M7 Processor Technical Reference Manual P100) |
Device 和Strongly-Ordered | 处理器保持顺序处理,只能是(Non-cacheable),两种类型区别在于对Device类型的内存写操作可以使用write-buffer,而Strongly-Ordered类型的不可以。当执行写操作到内存时,如果类型是Device,cpu写到buffer后即认为操作结束转而执行后续指令;如果类型是Strongly-Ordered,cpu需要写到内存后才能执行后续指令。写入buffer只要一个时钟周期,而写入内存要多个时钟周期,显然Device效率更高。缺点是失去了同步实时性,如果指令中间出错就不能正确报告错误。 |
Write-buffer是什么?
Device和Strongly-Ordered类型时候提到了write-buffer,它属于cpu核心,cache经常与write-buffer一起使用,使用writer-buffer的目的是将处理器和cache从较慢的对主存的写操作中脱离出来。
Write buffer可以缓存8个word的数据和4个独立的地址,可以enable或者disable使用ARM核心控制寄存器 W的bit3。同时还要受到内存管理页表的一个bit控制,所以使用Write-Buffer,MMU必须已经使能(控制寄存器的bit0)。MMU-Memory Management Unit
通常情况下的配置都是主内存允许bufferable,但是I/O 空间 unbufferable
当CPU执行一个写操作时,根据配置情况执行写入操作。
写入操作 | 过程 |
---|---|
Bufferable write | CPU将数据以FCLK的速度放到writebuffer里面,然后CPU去执行其他任务。然后writebuffer执行并行外部写操作。假如buffer是满的,cpu进入stall状态,直到有足够的buffer空间。 |
Unbufferable writes | CPU进入stalled状态,知道writebuffer空下来而且外部写入完成,可能耗费几个外部时钟循环。 |
Read-lock-write | 采用Unbufferable write的方式,即使被配置为buffered。 |
如果程序中使用DMB and DSB,处理器会等到write-buffer内指令完成,再进行后续指令操作,如果过程中发生中断,中断返回后继续write-buffer清空等待。
DMB或者DSB被称为 显式限制操作 explicit barrier。
Memory Attrabute
Normal模式下可以设定的几种
类型 | 特点 |
---|---|
Write allocation(WA) | 写操作出现catch miss情况时,会重新申请一个cache line,然后写到里面。 |
No Write allocation | 写操作出现catch miss情况时,直接写到内存里面,只有出现读cache miss才会重新申请cache line。 |
Write-back(WB) | 写操作出现catch hit情况时,标识为dirty,当cache line被evict时候,写到内存或者被代码显式clean-flush。 |
Write-through(WT) | 写操作同时更新cache和内存。 |
Shareable属性
共享属性设计的意义在于,多个bus master读写情况下需要cache保持同步,对于CortexM7,只有L1-Cache,如果设置了Shared相当于non-cacheable。
内核操作函数
内核操作函数包含以下几种,主要包含两种操作:clean和invalidate。
clean:将cache中的信息写到sram,相当于用cache信息覆盖sram;
invalidate:使cache失效,相当于用sram信息覆盖cache;
二者为相反的操作。
内存对齐问题
使用cache时,dma的buffer必须32byte对齐,不然可能会出现问题。比如下面的情况:
typedef struct
{
__attribute__ ((aligned (32))) uint8_t rx_buffer[BUFFER_SIZE];//用于buffer
bool rx_xfer_done; //用于记录dma已经被正确传输
}st_dma_xfer
void XDMAC_Handler(void)
{
uint32_t dma_status;
dma_status = xdmac_channel_get_interrupt_status(XDMAC, XDMA_CH_RX);
if (dma_status & XDMAC_CIS_BIS)
{
g_st_dma_xfer.rx_xfer_done = true;
SCB_InvalidateDCache_by_Addr((uint32_t*)g_st_dma_xfer.rx_buffer, DMA_TRANSFER_SIZE);
}
}
如果DMA的buffer只有16字节,DMA读取操作后,DMA控制器将接收到的数据写到了sram里面,然后进入DMA接收中断函数,cpu把成功读取的标识bool变量写为true,实际上写操作只是写在D-Cache里面,暂时没有写到sram。
如果此时cpu需要读取dma内容,需要对Dcache进行invalid操作,32个字节将一起更新,bool变量旧值0将覆盖新值1。cpu读不到中断函数写的bool变量信息。
可见:
clean操作或者Invalidate操作都可能丢东西,使用上需要注意。经验是如果一段内存用来写dma外设,就不要读它,保证随时都可以clean;同样如果一段内存用来接收DMA外设传入信息,就不要用cpu写它,保证随时都可以invalidate。