cacheline一致性、内存序、volatile

1、cacheline知识

CPU cache有三级,其中L1、L2是每个core私有的,L3是公共的,cacheline是CPU cache中最小的缓存单位,CPU访问主存中某个数据时会将cache line大小的数据全部读入cache中,目前主流CPU的cacheline大小是64B,比如访问一个long数组,cpu每次会将8个值一起读到cache中,利用这个特性我们可以快速遍历连续内存的数据,比如数组;但是对于非连续性内存比如链表,每次都要从主存中读取数据。

int arr[m][n];
//利用cacheline
for (int i = 0;i< m; ++i) {
    for (int j = 0; j < n; ++j) {
        print(arr[i][j]);
    }
}
//cache miss
for (int i = 0;i< m; ++i) {
    for (int j = 0; j < n; ++j) {
        print(arr[j][i]);
    }
}

伪共享

是指不同线程所修改的数据处于同一cacheline中,当线程1修改了某个值回事整个cacheline都失效,其他cpu core再使用改cacheline数据时会cache miss,必须重新从主存中读取,影响彼此性能。

优化:每个线程要修改的数据尽量放到独立的cacheline中,如果数据不足以占满一个cacheline可以定义一些不用的字段来填充。

struct TT {
    volatile long real_val;
    volatile long byte1, byte2, byte3, byte4, byte, byte6, byte7;
};

2、volatile

保证CPU指令的可见性和有序性。

可见性:当一个core在修改变量后,该变量所在cacheline状态变为modify,其他core该变量所在的cacheline会变成invalid状态,当其他核访问改变量会cache miss然后从主存中读取。但是每个CPU core都有store buffer和load buffer,对于别影响的core来说,cacheline状态修改的指令放到store buffer但不会立即执行,读仍然是从load buffer中读取两者是异步的,因此会有短暂的cache数据不一致。如果使用volatile修饰,那么每次访问变量都会直接读内存不读cacheline。

有序性:编译器和CPU存在指令重排,只是保证在单线程下运行结果正常,但是对于多线程存在状态依赖的这种情况,指令重排很可能导致结果不符合预期。volatile关键字修饰的变量执行顺序不会被打乱。

注意:c++的volatile只是保证单个线程指令有序,要保证多核之间指令有序应该不用CPU内存屏障。

//thread A
volatile bool flag = false;
volatile int value = 0;

...
value = 100;
flag = true;


//thread B
while(flag == false);
print(value);

//如果不用volatile修饰flag,那么thread A可能会先执行flag=true;
//在执行value=100;那么thread B就有可能打印出value=0而不是预期的evalue=100.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值