ZYNQ裸机开发中的Cache问题

在裸机开发中,经常会涉及到cache一致性的问题,我们知道,使用Xil_DCacheFlushRange和Xil_DCacheInvalidateRange函数可以解决这个问题,但是Xil_DCacheInvalidateRange使用时有一些注意事项,之前没注意,导致一些莫名奇怪的错误,故在此记录一下。
我们知道,在cache和DDR之间数据传输的基本单位是Cache Line,因此,在使用Xil_DCacheInvalidateRange时,无论是起始地址,还是要Invalidate的长度,都必须是Cache Line大小的整数倍,否则会发生错误,比如前几个数据或者后几个数据不对。正确的使用方法如下:

void pl_conv_pool(XTop Hls_inst,signed char* in,short* out,int pool,int layer,int fsize,int ch_in,int ch_out,int pad){
	Xil_DCacheFlushRange((u32)in,ch_in*(fsize+2*pad)*(fsize+2*pad)*sizeof(signed char));
	XTop_Set_in1_V(&Hls_inst,(u32)in);
	XTop_Set_in2_V(&Hls_inst,(u32)in);
	XTop_Set_out_V(&Hls_inst,(u32)out);
	XTop_Set_fsize(&Hls_inst,(u32)(fsize+2*pad));
	XTop_Set_ch_in(&Hls_inst, (u32)(ch_in));
	if(ch_out==10)
		XTop_Set_ch_out(&Hls_inst,(u32)(ch_out+6));
	else
		XTop_Set_ch_out(&Hls_inst,(u32)(ch_out));
	XTop_Set_pool(&Hls_inst,(u32)pool);
	XTop_Set_layer(&Hls_inst,(u32)layer);
	XTop_Start(&Hls_inst);
	while (XTop_IsDone(&Hls_inst) == 0);
	if(pool==1)
	    Xil_DCacheInvalidateRange((u32)((unsigned int)out&0xffffffe0), 32*((ch_out*fsize*fsize/4*sizeof(short))/32+2));
	else
	    Xil_DCacheInvalidateRange((u32)((unsigned int)out&0xffffffe0), 32*((ch_out*fsize*fsize*sizeof(short))/32+2));
}

为了地址对齐,要和0xffffffe0与,为了长度是cache line的整数倍,要将总的字节数除以32,向下取整后+2,最后乘以cache line的大小(这里是32byte),至于为什么这么计算,可以参见下图
在这里插入图片描述

### Zynq 缓存机制及配置 #### 1. ARM Cortex-A9 处理器子系统的缓存架构 Zynq-7000 器件中的双核ARM Cortex-A9 MPCore处理系统(PS)具有多级缓存结构。L1指令和数据缓存每核心各具32KB大小,而共享的L2统一缓存则有512KB容量[^1]。 对于L1缓存而言,这些紧耦合内存(TCMs)能够提供极低延迟访问特性,适用于实时应用场合下的快速响应需求。TCMs分为ITCM (Instruction Tightly Coupled Memory) 和DTCM (Data Tightly Coupled Memory),分别对应于指令与数据操作。它们同样具备可编程映射功能,在某些特定应用场景下可以灵活调整其用途以优化性能表现。 #### 2. L2 Cache Controller 配置选项 L2 cache controller 支持多种工作模式的选择,包括直写(write-through)、回写(write-back)以及非缓存(non-cacheable)等不同策略来适应多样化的软件运行环境要求。此外还提供了调试接口以便开发者监控并分析实际使用过程当中的命中率统计信息和其他重要参数指标变化情况。 为了确保最佳效能发挥,建议依据具体项目特点合理设定各项参数值: - **Cache Size**: 可通过修改硬件设计文件(XSA)内的相应属性字段完成定制化定义; - **Associativity Level**: 默认情况下采用八路组相联方式组织内部条目分布格局,亦可根据需要更改为其他形式如全相连或者直接映射型态; - **Line Length/Block Size**: 单位行长度一般固定为64字节,除非特殊情形才考虑变更此默认规格。 #### 3. PL端加速模块间的缓存一致性维护措施 除了上述提到的CPU侧资源管理之外,针对PL(Programmable Logic)区域所构建的各种专用计算单元之间的同步协调也至关重要。特别是在涉及DMA控制器或外部存储设备交互过程中容易引发潜在竞争条件问题时更是如此。为此,Xilinx公司特别引入了ACP(AXI Coherency Port)组件作为桥梁连接起两者间的信息交换通道,并借助MESI协议实现跨域事务处理的一致性保障目标[^4]。 ```python # Python伪代码展示如何查询当前使用cache policy def get_cache_policy(): """ 获取当前L2缓存的工作模式 Returns: str: 返回描述性的字符串表示当前policy """ policies = { 0b00 : 'Non-Cacheable', 0b01 : 'Write Through', 0b10 : 'Write Back' } # 这里假设有一个函数可以从寄存器读取状态 current_setting = read_from_register('CACHE_POLICY_REG') return policies.get(current_setting, "Unknown Policy") print(get_cache_policy()) ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

FPGA硅农

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值