false sharing 问题

    在做多线程程序的时候,为了避免使用锁,我们通常会采用这样的数据结构:根据线程的数目,安排一个数组, 每个线程一个项,互相不冲突. 从逻辑上看这样的设计无懈可击,但是实践的过程我们会发现这样并没有提高速度. 问题在于cpu的cache line. 我们在读主存的时候,数据同时被读到L1,L2中去,而且在L1中是以cache line(通常64)字节为单位的. 每个Core都有自己的L1,L2,所以每个线程在读取自己的项的时候, 也把别人的项读进去, 所以在更新的时候,为了保持数据的一致性, core之间cache要进行同步, 这个会导致严重的性能问题. 这就是所谓的False sharing问题。

测试


    测试验证程序:

struct Param
{
		int idx;
		int cpunum;
//}__attribute__((__aligned__(64)));
};

Param params[] = {
	{0, 0},
	{0, 1},
	{0, 2},
	{0, 3},
	{0, 4},
	{0, 5},
	{0, 6},
	{0, 7},
	{0, 8},
	{0, 9}
};

void* theadLoop(void *pin) 
{
		Param *p = (Param *)pin;

		cpu_set_t mask;
		CPU_ZERO(&mask);
		CPU_SET(p->cpunum, &mask); //对每个线程设置绑定方案
		printf("cpu bond on cpu %d\n", p->cpunum * 2);
		sched_setaffinity(0,sizeof(cpu_set_t), &mask);
		
		long long loop = 500000000;
		while (loop--) 
		{
				p->idx++;
		}
		//printf("Thread [%u] exit, idx=%lu\n", p->cpunum, p->idx);
}

int main()
{
		printf("sizeof(Param)=%d\n", sizeof(Param));

		int maxThreadNum = sizeof(params)/sizeof(Param);

		pthread_t *pts = new pthread_t[maxThreadNum];
		for (int i=0; i<maxThreadNum; i++) 
		{
				int ret = pthread_create(&pts[i], NULL, theadLoop, ¶ms[i]);
				if (0 != ret)
				{
						printf("Create pthread error!\n");
				}
		}

		for (int i=0; i<maxThreadNum; i++)
		{
			pthread_join(pts[i], NULL);
		}
}

  • 测试工具:perf,使用perf stat -e cache-misses ./程序,可以统计程序运行时间和cache-misses事件数量

测试一:CPU 0~9 不对齐

测试二:CPU 0~9 对齐

测试三:CPU 0、2、4、6~18 不对齐

测试四:CPU 0、2、4、6~18 对齐

总结

 

    通过测试验证了false sharing问题的存在,可以看到性能差异在10倍以上,测试使用O0编译参数,实际工程中通常会使用O2、O3参数做编译优化,代码复杂度高,编译优化也不一定那么靠谱,因此遵守必要的编码原理有助于提升性能,日常开发过程中尽量使用cache对齐的数据结构。






                
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值