高斯消去法SSE并行化实验

最新推荐文章于 2022-05-16 22:28:42 发布

codes_first

最新推荐文章于 2022-05-16 22:28:42 发布

阅读量5.1k

点赞数 5

分类专栏： breadcrumb 文章标签：高斯消去法 SSE并行化

本文链接：https://blog.csdn.net/codes_first/article/details/80024096

版权

高斯消去法原理和伪代码：

高斯消去法（LU分解），是线性代数中的一个算法，可用来求解线性方程组，并可以求出矩阵的秩，以及求出可逆方阵的逆矩阵。高斯消元法的原理是：若用初等行变换将增广矩阵化为，则AX = B与CX = D是同解方程组。所以我们可以用初等行变换把增广矩阵转换为行阶梯阵，然后回代求出方程的解。

总结一套流程就是：

原线性方程组——> 高斯消元法——> 下三角或上三角形式的线性方程组——>前向替换算法求解（对于上三角形式，采用后向替换算法）

所以高斯消去法（LU分解）串行算法如下面伪代码所示：

for k := 1 to n do

    for j := k to ndo

        A[k, j] := A[k, j]/A[k, k];

    for i := k + 1to n do

        for j := k + 1 to n do

            A[i, j] := A[i, j] - A[i, k] × A[k, j ];

        A[i, k] := 0;

这其中，内嵌的第一个for循环的作用是把第k行的所有元素除以第一个非零元素，目的是第一个非零元为1

而第二个内嵌的for循环（当然其中还内嵌了一个小的for循环）作用是从k+1行开始减去第k行乘以这一行行的第一个非零元，使得k+1行的第k列为0

SSE/AVX介绍：

Intel ICC和开源的GCC编译器支持的SSE/AVX指令的C接口声明在xmmintrin.h和pmmintrin.h头文件中。其数据类型命名主要有__m128/__m256、__m128d/__m256i，默认为单精度（d表示双精度，i表示整型）。其函数的命名可大致分为3个使用“_”隔开的部分，3个部分的含义如下。

第一个部分为_mm或_mm256。_mm表示其为SSE指令，操作的向量长度为64位或128位。_mm256表示AVX指令，操作的向量长度为256位。本节只介绍128位的SSE指令和256位的AVX指令。

第二个部分为操作函数名称，如_add、_load、mul等，一些函数操作会增加修饰符，如loadu表示不对齐到向量长度的存储器访问。

第三个部分为操作的对象名及数据类型，_ps表示操作向量中所有的单精度数据；_pd表示操作向量中所有的双精度数据；_pixx表示操作向量中所有的xx位的有符号整型数据，向量寄存器长度为64位；_epixx表示操作向量中所有的xx位的有符号整型数据，向量寄存器长度为128位；_epuxx表示操作向量中所有的xx位的无符号整型数据，向量寄存器长度为128位；_ss表示只操作向量中第一个单精度数据；si128表示操作向量寄存器中的第一个128位有符号整型。

3个部分组合起来，就形成了一条向量函数，如_mm256_add_ps表示使用256位向量寄存器执行单精度浮点加法运算。由于使用指令级数据并行，因此其粒度非常小，需要使用细粒度的并行算法设计。SSE/AVX指令集对分支的处理能力非常差，而从向量中抽取某些元素数据的代价又非常大，因此不适合含有复杂逻辑的运算。

现在对于接下来代码中要用到的几个SSE指令加以介绍：

最低0.47元/天解锁文章

codes_first

关注

5
点赞
踩
28

收藏

觉得还不错? 一键收藏
5
评论
高斯消去法SSE并行化实验

高斯消去法原理和伪代码：高斯消去法（LU分解），是线性代数中的一个算法，可用来求解线性方程组，并可以求出矩阵的秩，以及求出可逆方阵的逆矩阵。高斯消元法的原理是：若用初等行变换将增广矩阵化为，则AX = B与CX = D是同解方程组。所以我们可以用初等行变换把增广矩阵转换为行阶梯阵，然后回代求出方程的解。总结一套流程就是：原线性方程组——&gt; 高斯消元法——&gt; 下三角或上三角形式的线...
复制链接

扫一扫