false sharing 问题

最新推荐文章于 2021-08-29 11:15:48 发布

陈鑫-988

最新推荐文章于 2021-08-29 11:15:48 发布

阅读量453

点赞数

分类专栏：性能文章标签：性能

本文链接：https://blog.csdn.net/weixin_37246875/article/details/76974538

版权

性能专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在做多线程程序的时候,为了避免使用锁,我们通常会采用这样的数据结构:根据线程的数目,安排一个数组, 每个线程一个项,互相不冲突. 从逻辑上看这样的设计无懈可击,但是实践的过程我们会发现这样并没有提高速度. 问题在于cpu的cache line. 我们在读主存的时候,数据同时被读到L1,L2中去,而且在L1中是以cache line(通常64)字节为单位的. 每个Core都有自己的L1,L2,所以每个线程在读取自己的项的时候, 也把别人的项读进去, 所以在更新的时候,为了保持数据的一致性, core之间cache要进行同步, 这个会导致严重的性能问题. 这就是所谓的False sharing问题。

测试

测试验证程序：

struct Param
{
		int idx;
		int cpunum;
//}__attribute__((__aligned__(64)));
};

Param params[] = {
	{0, 0},
	{0, 1},
	{0, 2},
	{0, 3},
	{0, 4},
	{0, 5},
	{0, 6},
	{0, 7},
	{0, 8},
	{0, 9}
};

void* theadLoop(void *pin) 
{
		Param *p = (Param *)pin;

		cpu_set_t mask;
		CPU_ZERO(&mask);
		CPU_SET(p->cpunum, &mask); //对每个线程设置绑定方案
		printf("cpu bond on cpu %d\n", p->cpunum * 2);
		sched_setaffinity(0,sizeof(cpu_set_t), &mask);
		
		long long loop = 500000000;
		while (loop--) 
		{
				p->idx++;
		}
		//printf("Thread [%u] exit, idx=%lu\n", p->cpunum, p->idx);
}

int main()
{
		printf("sizeof(Param)=%d\n", sizeof(Param));

		int maxThreadNum = sizeof(params)/sizeof(Param);

		pthread_t *pts = new pthread_t[maxThreadNum];
		for (int i=0; i<maxThreadNum; i++) 
		{
				int ret = pthread_create(&pts[i], NULL, theadLoop, ¶ms[i]);
				if (0 != ret)
				{
						printf("Create pthread error!\n");
				}
		}

		for (int i=0; i<maxThreadNum; i++)
		{
			pthread_join(pts[i], NULL);
		}
}

测试工具：perf，使用perf stat -e cache-misses ./程序，可以统计程序运行时间和cache-misses事件数量

测试一：CPU 0~9 不对齐

测试二：CPU 0~9 对齐

测试三：CPU 0、2、4、6~18 不对齐

测试四：CPU 0、2、4、6~18 对齐

总结

通过测试验证了false sharing问题的存在，可以看到性能差异在10倍以上，测试使用O0编译参数，实际工程中通常会使用O2、O3参数做编译优化，代码复杂度高，编译优化也不一定那么靠谱，因此遵守必要的编码原理有助于提升性能，日常开发过程中尽量使用cache对齐的数据结构。

陈鑫-988

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
false sharing 问题

在做多线程程序的时候,为了避免使用锁,我们通常会采用这样的数据结构:根据线程的数目,安排一个数组, 每个线程一个项,互相不冲突. 从逻辑上看这样的设计无懈可击,但是实践的过程我们会发现这样并没有提高速度. 问题在于cpu的cache line. 我们在读主存的时候,数据同时被读到L1,L2中去,而且在L1中是以cache line(通常64)字节为单位的. 每个Core都有自己的L1,L2,所以每
复制链接

扫一扫