C++avx256指令集加速实例

最新推荐文章于 2024-07-14 18:48:02 发布

icfg66

最新推荐文章于 2024-07-14 18:48:02 发布

阅读量6.9k

点赞数 6

分类专栏：计算机语言体系结构文章标签：算法

本文链接：https://blog.csdn.net/qq_42556934/article/details/108949559

版权

体系结构同时被 2 个专栏收录

14 篇文章 14 订阅

订阅专栏

计算机语言

12 篇文章 1 订阅

订阅专栏

背景

avx256是x86cpu架构下实现SIMD（单指令多数据）的指令集。它能够利用cpu内部256bit的寄存器，同时对4位double或8位int类型的数操作，达到很好的加速效果。这里通过一个计算 $\pi$ 的实例来展示其威力：
$\pi = 4\int_0^1\frac{1}{1+x^2}dx$
linux系统下可以通过如下命令查看电脑是否支持avx256指令集：

cat /proc/cpuinfo | grep flags

sse4就表示该指令集。

实例代码

//g++ avx_pi.cpp -mavx -O2 
#include <iostream>
#include <ctime>
#include <x86intrin.h>
using namespace std; 
//正常的逐个累加运算
double compute_pi_naive(size_t dt){
	double pi = 0.0;
	double delta = 1.0/dt;
	for (size_t i =0;i<dt;i++){
		double x = (double)i/dt;
		pi += delta /(1+x*x);
	}
	return pi*4.0;
}
//利用avx256指令集
double compute_pi_avx256(size_t dt){
	double pi = 0.0;
	double delta = 1.0/dt;
	__m256d ymm0,ymm1,ymm2,ymm3,ymm4;
	ymm0 = _mm256_set1_pd(1.0);
	ymm1 = _mm256_set1_pd(delta);
	ymm2 = _mm256_set_pd(delta*3,delta*2,delta,0.0);
	ymm4 = _mm256_setzero_pd();
	for (int i = 0;i<dt-4;i+=4){
		ymm3 = _mm256_set1_pd(i*delta);
		ymm3 = _mm256_add_pd(ymm3,ymm2);
		ymm3 = _mm256_mul_pd(ymm3,ymm3);
		ymm3 = _mm256_add_pd(ymm0,ymm3);
		ymm3 = _mm256_div_pd(ymm1,ymm3);
		ymm4 = _mm256_add_pd(ymm4,ymm3);		
	}
	double tmp[4] __attribute__((aligned(32)));
	_mm256_store_pd(tmp,ymm4);
	pi += tmp[0]+tmp[1]+tmp[2]+tmp[3];
	return pi*4.0;
}
int main(){
	clock_t start,end;
	size_t dt = 134217728;
	double result1,result2;
	//普通函数计时
	start = clock();
	result1 = compute_pi_naive(dt);
	end  = clock();
	cout<<"naive:\n"<< result1 <<endl<<end- start <<endl;
    //avx256计时
	start = clock();
	result2 = compute_pi_avx256(dt);
	end  = clock();
	cout<<"avx256:\n" <<result2 <<endl<<end- start <<endl;

	return 0;
}

可以看出，速度提高了两倍多。

icfg66

关注

6
点赞
踩
18

收藏

觉得还不错? 一键收藏
1
评论
C++avx256指令集加速实例

背景avx256是x86cpu架构下实现SIMD（单指令多数据）的指令集。它能够利用cpu内部256bit的寄存器，同时对4位double或8位int类型的数操作，达到很好的加速效果。这里通过一个计算π\piπ的实例来展示其威力：π=4∫0111+x2dx\pi = 4\int_0^1\frac{1}{1+x^2}dxπ=4∫011+x21dxlinux系统下可以通过如下命令查看电脑是否支持avx256指令集：cat /proc/cpuinfo | grep flagssse4就表示
复制链接

扫一扫

专栏目录