在做多线程程序的时候,为了避免使用锁,我们通常会采用这样的数据结构:根据线程的数目,安排一个数组, 每个线程一个项,互相不冲突. 从逻辑上看这样的设计无懈可击,但是实践的过程我们会发现这样并没有提高速度. 问题在于cpu的cache line. 我们在读主存的时候,数据同时被读到L1,L2中去,而且在L1中是以cache line(通常64)字节为单位的. 每个Core都有自己的L1,L2,所以每个线程在读取自己的项的时候, 也把别人的项读进去, 所以在更新的时候,为了保持数据的一致性, core之间cache要进行同步, 这个会导致严重的性能问题. 这就是所谓的False sharing问题。
测试
测试验证程序:
struct Param
{
int idx;
int cpunum;
//}__attribute__((__aligned__(64)));
};
Param params[] = {
{0, 0},
{0, 1},
{0, 2},
{0, 3},
{0, 4},
{0, 5},
{0, 6},
{0, 7},
{0, 8},
{0, 9}
};
void* theadLoop(void *pin)
{
Param *p = (Param *)pin;
cpu_set_t mask;
CPU_ZERO(&mask);
CPU_SET(p->cpunum, &mask); //对每个线程设置绑定方案
printf("cpu bond on cpu %d\n", p->cpunum * 2);
sched_setaffinity(0,sizeof(cpu_set_t), &mask);
long long loop = 500000000;
while (loop--)
{
p->idx++;
}
//printf("Thread [%u] exit, idx=%lu\n", p->cpunum, p->idx);
}
int main()
{
printf("sizeof(Param)=%d\n", sizeof(Param));
int maxThreadNum = sizeof(params)/sizeof(Param);
pthread_t *pts = new pthread_t[maxThreadNum];
for (int i=0; i<maxThreadNum; i++)
{
int ret = pthread_create(&pts[i], NULL, theadLoop, ¶ms[i]);
if (0 != ret)
{
printf("Create pthread error!\n");
}
}
for (int i=0; i<maxThreadNum; i++)
{
pthread_join(pts[i], NULL);
}
}
- 测试工具:perf,使用perf stat -e cache-misses ./程序,可以统计程序运行时间和cache-misses事件数量
测试一:CPU 0~9 不对齐
测试二:CPU 0~9 对齐
测试三:CPU 0、2、4、6~18 不对齐
测试四:CPU 0、2、4、6~18 对齐
总结
通过测试验证了false sharing问题的存在,可以看到性能差异在10倍以上,测试使用O0编译参数,实际工程中通常会使用O2、O3参数做编译优化,代码复杂度高,编译优化也不一定那么靠谱,因此遵守必要的编码原理有助于提升性能,日常开发过程中尽量使用cache对齐的数据结构。