Poisson方程的五点格式MPI并行算法：Jacobi迭代和直接算法LU分解

Handsome Each

已于 2024-06-19 00:37:55 修改

阅读量791

点赞数 15

分类专栏：并行计算文章标签：算法

于 2024-06-18 21:44:45 首次发布

本文链接：https://blog.csdn.net/m0_73444364/article/details/139781810

版权

并行计算专栏收录该内容

1 篇文章 0 订阅

订阅专栏

摘要

本文研究了二维Poisson方程的五点格式离散算法，并实现两种求解方法：Jacobi迭代法和LU分解法的串行和MPI并行算法。本文先介绍Poisson方程的数学模型及其五点格式离散化过程，并分别实现串行和并行的Jacobi迭代法，通过数据划分和通信优化提升计算效率。讨论LU分解法在串行和并行环境下的实现，重点在并行算法的设计和性能优化。最后总结两种算法的优缺点及其在不同计算环境下的表现，并提出建议。

关键词：Poisson方程，五点格式，Jacobi迭代，LU分解，MPI并行计算，数值解法

图清单

图序号	图名称	页码
图1-1	流程图	3
图2-1	二维Poisson分布	4

表清单

变量注释表

1 绪论

1.1 研究背景

Poisson方程在物理和工程学中有着广泛的应用，如电磁场、热传导和流体动力学等领域。解决Poisson方程的数值方法对于科学计算和工程模拟至关重要。传统的数值求解方法在处理大规模问题时计算成本高、效率低，因此高效的并行算法成为研究热点。

通过研究二维Poisson方程的五点格式离散算法及其并行实现方法，本文旨在提升大规模科学计算的效率，为工程应用提供高效的数值求解工具。这不仅对理解Poisson方程的数值解法具有理论意义，也为高性能计算在实际问题中的应用提供了重要参考。

1.2 研究现状

在Poisson方程的数值求解领域，五点格式离散化方法和高效的求解算法一直是研究的重点。现阶段的研究主要集中在以下几个方面：

离散化方法方面：五点格式是经典且常用的离散化方法，将二维Poisson方程转化为离散的代数方程组。虽然研究人员不断改进离散化技术，开发了更高精度和稳定性的离散格式，如九点格式和紧致格式，但五点格式因其简单性和有效性仍被广泛使用。

迭代算法方面：Jacobi迭代法、Gauss-Seidel法和SOR（超松弛迭代）法是常见的迭代求解方法。其中，Jacobi迭代法因其并行化实现简单而受到广泛关注。研究工作集中在改进迭代算法的收敛速度和稳定性，利用多重网格法（Multigrid Method）等技术显著提升了迭代方法的效率。

直接求解方法方面：LU分解法是经典的直接求解方法之一，被广泛应用于求解线性代数方程组。研究人员致力于优化LU分解的计算效率和并行性能，特别是在高性能计算（HPC）领域，开发了适用于分布式内存系统的并行LU分解算法。此外，研究还涉及如何有效地在MPI（Message Passing Interface）环境中实现这些算法，以充分利用现代超级计算机的计算能力。

1.3 研究的目标和内容

本文的研究目标是开发和优化求解Poisson方程的高效数值方法，具体包括五点格式的离散化方法以及Jacobi迭代法和LU分解法的串行和并行实现。通过这些方法的研究与实现，旨在提升大规模科学计算的效率，为工程和物理领域的实际问题提供可靠的数值解决方案。

本文深入分析Poisson方程的数学模型及其物理背景，详细介绍五点格式的离散化方法。通过推导和验证，确保离散化后的代数方程组能够准确反映原始偏微分方程的特性。

针对离散化后的方程组，研究并实现Jacobi迭代法。具体包括两个部分：一是实现Jacobi迭代法的串行算法，通过详细的算法步骤和伪代码描述其计算过程；二是将该算法扩展到MPI并行计算环境，设计并实现并行算法，重点讨论数据划分、处理器间通信以及负载均衡等问题，以提高计算效率。

研究LU分解法在求解Poisson方程中的应用。首先实现其串行算法，分析算法的步骤和性能；随后开发并行LU分解算法，探讨在MPI环境下的实现策略，优化数据分布和通信过程，以充分利用并行计算资源。

对所研究的数值方法进行总结和性能评估，比较Jacobi迭代法和LU分解法在不同计算环境下的优缺点。通过实验结果，分析两种方法的效率和收敛性。

1.4 论文组织结构

图1-1 流程图

2 理论基础与方法

2.1 二维 Poisson 方程

在这里插入图片描述

图2-1 二维 Poisson分布

二维泊松方程在图2-1中展示如下：
$\begin{cases} -\Delta u(x,y) = f(x,y), & (x,y) \in \Omega \\ u(x,y) = g(x,y), & (x,y) \in \partial \Omega \end{cases}$ 其中 $\Omega = (0, a) \times (0, b)$ ， $\partial \Omega$ 为边界

为了得到该方程的离散算法，采用五点差分格式。
将 $x$ 方向的步长取为 $h_x = \frac{a}{m}$ ，将 $y$ 方向的步长取为 $h_y = \frac{b}{n}$ 。
在区域内构建网格点 $x_i, y_j)$ ，其中 $x_i = i \cdot h_x$ ， $y_j = j \cdot h_y$ ， $i = 0, 1, ..., m$ ， $j = 0, 1, ..., n$ 。
记 $u$ 在网格点 $x_i, y_j)$ 的近似值为 $u_{i,j}$ 。
离散化后的差分方程为：
$\frac{2u_{ij} - u_{i+1,j} - u_{i-1,j}}{h_x^2} + \frac{2u_{ij} - u_{i,j+1} - u_{i,j-1}}{h_y^2} = f_{ij}$ 对应于原方程的离散化形式。
边界条件给出网格边界上的值：
$\begin{cases} u_{i0} = g_{i0}, & u_{in} = g_{in}, \\ u_{0j} = g_{0j}, & u_{mj} = g_{mj}, \\ \end{cases}$ 其中 $i = 1, ..., m - 1$ ， $j = 1, ..., n - 1$ 。
将差分方程整理得到：
$u_{ij} - d_x (u_{i+1,j} + u_{i-1,j}) - d_y (u_{i,j+1} + u_{i,j-1}) = d \cdot f_{ij}$ 其中：
$\frac{h_x^2 h_y^2}{2(h_x^2 + h_y^2)}, \quad d_x = \frac{d}{h_x^2}, \quad d_y = \frac{d}{h_y^2}$ 在每个内部网格点 $(i, j)$ 处，方程形式为：
$u_{ij} = d_x (u_{i+1,j} + u_{i-1,j}) + d_y (u_{i,j+1} + u_{i,j-1}) + d \cdot f_{ij}$ 这个方程系统是线性方程组，可以使用迭代方法或直接求解方法进行求解。

2.2 五点格式Jacobi迭代求解算法

2.2.1 串行实现

#include <stdio.h>
#include <stdlib.h>
#include <mpi.h>
#include <math.h>

// 假设有适当的函数和数据结构支持

// 用于分配二维数组内存的辅助函数
double** allocate_2d_array(int N) {
    double** array = (double**)malloc(N * sizeof(double*));
    for (int i = 0; i < N; i++) {
        array[i] = (double*)malloc(N * sizeof(double));
    }
    return array;
}

// 用于释放二维数组内存的辅助函数
void free_2d_array(double** array, int N) {
    for (int i = 0; i < N; i++) {
        free(array[i]);
    }
    free(array);
}

// MPI并行Jacobi迭代的实现函数
void jacobi_parallel(double **u, double **f, int N, int max_iter, double tol, MPI_Comm comm) {
    int rank, size;
    MPI_Comm_rank(comm, &rank);
    MPI_Comm_size(comm, &size);
    double h = 1.0 / (N - 1);  // 假设网格间距为1/(N-1)
    double** u_new = allocate_2d_array(N);
    
    for (int iter = 0; iter < max_iter; iter++) {
        double max_error = 0.0;
        for (int i = 1; i < N-1; i++) {
            for (int j = 1; j < N-1; j++) {
                u_new[i][j] = 0.25 * (u[i+1][j] + u[i-1][j] + u[i][j+1] + u[i][j-1] - h*h*f[i][j]);
                double error = fabs(u_new[i][j] - u[i][j]);
                if (error > max_error) {
                    max_error = error;
                }
            }
        }
        
        // 计算全局最大误差
        double global_max_error;
        MPI_Allreduce(&max_error, &global_max_error, 1, MPI_DOUBLE, MPI_MAX, comm);
        
        if (global_max_error < tol) {
            if (rank == 0) {
                printf("Converged after %d iterations with tolerance %.6f\n", iter+1, tol);
            }
            break;
        }
        
        // 将u_new的值复制到u中，准备进行下一轮迭代
        for (int i = 1; i < N-1; i++) {
            for (int j = 1; j < N-1; j++) {
                u[i][j] = u_new[i][j];
            }
        }
    }
    
    free_2d_array(u_new, N);
}

int main(int argc, char **argv) {
    MPI_Init(&argc, &argv);
    
    int rank, size;
    MPI_Comm_rank(MPI_COMM_WORLD, &rank);
    MPI_Comm_size(MPI_COMM_WORLD, &size);
    
    int N = 11;  // 网格大小
    double **u = allocate_2d_array(N);   // u表示网格点的函数值
    double **f = allocate_2d_array(N);   // f表示Poisson方程右端项
    double tol = 1e-6;  // 迭代收敛判据
    int max_iter = 1000;  // 最大迭代次数
    
    // 初始化u和f
    // 假设给定初始条件和右端项
    for (int i = 0; i < N; i++) {
        for (int j = 0; j < N; j++) {
            u[i][j] = 0.0;  // 初始猜测为0
            f[i][j] = 1.0;  // 假设右端项为常数1
        }
    }

    // 设置边界条件
    // 假设边界条件是Dirichlet边界条件，简单设定为0
    
    // 调用MPI并行Jacobi迭代的函数
    jacobi_parallel(u, f, N, max_iter, tol, MPI_COMM_WORLD);

    // 打印部分结果示例
    if (rank == 0) {
        printf("MPI并行Jacobi迭代后的部分结果：\n");
        for (int i = 0; i < 5; i++) {
            for (int j = 0; j < 5; j++) {
                printf("%.6f ", u[i][j]);
            }
            printf("\n");
        }
    }

    // 释放内存等清理操作
    free_2d_array(u, N);
    free_2d_array(f, N);

    MPI_Finalize();

    return 0;
}

2.2.2 并行实现

#include <mpi.h>
#include <stdio.h>
#include <stdlib.h>
#include <math.h>

void jacobi_parallel(double **u, double **f, double h, double tol, int max_iter, int n) {
    int rank, size;
    MPI_Comm_rank(MPI_COMM_WORLD, &rank);
    MPI_Comm_size(MPI_COMM_WORLD, &size);

    int local_n = n / size;
    double **local_u = (double **)malloc((local_n + 2) * sizeof(double *));
    double **local_u_new = (double **)malloc((local_n + 2) * sizeof(double *));
    for (int i = 0; i < local_n + 2; i++) {
        local_u[i] = (double *)malloc(n * sizeof(double));
        local_u_new[i] = (double *)malloc(n * sizeof(double));
    }

    for (int iter = 0; iter < max_iter; iter++) {
        MPI_Sendrecv(local_u[1], n, MPI_DOUBLE, (rank+1) % size, 0, 
                     local_u[local_n+1], n, MPI_DOUBLE, (rank-1+size) % size, 0, MPI_COMM_WORLD, MPI_STATUS_IGNORE);
        MPI_Sendrecv(local_u[local_n], n, MPI_DOUBLE, (rank-1+size) % size, 0, 
                     local_u[0], n, MPI_DOUBLE, (rank+1) % size, 0, MPI_COMM_WORLD, MPI_STATUS_IGNORE);

        for (int i = 1; i <= local_n; i++) {
            for (int j = 1; j < n-1; j++) {
                local_u_new[i][j] = 0.25 * (local_u[i+1][j] + local_u[i-1][j] + local_u[i][j+1] + local_u[i][j-1] - h*h*f[i][j]);
            }
        }

        double local_norm = 0.0;
        for (int i = 1; i <= local_n; i++) {
            for (int j = 1; j < n-1; j++) {
                local_norm += fabs(local_u_new[i][j] - local_u[i][j]);
                local_u[i][j] = local_u_new[i][j];
            }
        }

        double global_norm;
        MPI_Allreduce(&local_norm, &global_norm, 1, MPI_DOUBLE, MPI_SUM, MPI_COMM_WORLD);
        
        if (global_norm < tol) {
            break;
        }
    }

    for (int i = 0; i < local_n + 2; i++) {
        free(local_u[i]);
        free(local_u_new[i]);
    }
    free(local_u);
    free(local_u_new);
}

2.3 直接算法LU分解

2.3.1 串行实现

#include <stdio.h>
#include <stdlib.h>

void lu_decomposition(double **A, double **L, double **U, int n) {
    for (int i = 0; i < n; i++) {
        for (int j = 0; j < n; j++) {
            if (i <= j) {
                U[i][j] = A[i][j];
                for (int k = 0; k < i; k++) {
                    U[i][j] -= L[i][k] * U[k][j];
                }
                if (i == j) {
                    L[i][j] = 1.0;
                } else {
                    L[i][j] = 0.0;
                }
            } else {
                L[i][j] = A[i][j];
                for (int k = 0; k < j; k++) {
                    L[i][j] -= L[i][k] * U[k][j];
                }
                L[i][j] /= U[j][j];
                U[i][j] = 0.0;
            }
        }
    }
}

void forward_substitution(double **L, double *y, double *b, int n) {
    for (int i = 0; i < n; i++) {
        y[i] = b[i];
        for (int j = 0; j < i; j++) {
            y[i] -= L[i][j] * y[j];
        }
    }
}

void backward_substitution(double **U, double *x, double *y, int n) {
    for (int i = n-1; i >= 0; i--) {
        x[i] = y[i];
        for (int j = i+1; j < n; j++) {
            x[i] -= U[i][j] * x[j];
        }
        x[i] /= U[i][i];
    }
}

2.3.2 并行实现

#include <mpi.h>
#include <stdio.h>
#include <stdlib.h>

void lu_decomposition_parallel(double **A, int n) {
    int rank, size;
    MPI_Comm_rank(MPI_COMM_WORLD, &rank);
    MPI_Comm_size(MPI_COMM_WORLD, &size);

    int local_n = n / size;
    double **local_A = (double **)malloc(local_n * sizeof(double *));
    for (int i = 0; i < local_n; i++) {
        local_A[i] = (double *)malloc(n * sizeof(double));
    }

    MPI_Scatter(*A, local_n * n, MPI_DOUBLE, *local_A, local_n * n, MPI_DOUBLE, 0, MPI_COMM_WORLD);

    for (int k = 0; k < local_n; k++) {
        for (int i = k+1; i < local_n; i++) {
            local_A[i][k] /= local_A[k][k];
            for (int j = k+1; j < n; j++) {
                local_A[i][j] -= local_A[i][k] * local_A[k][j];
            }
        }
    }

    MPI_Gather(*local_A, local_n * n, MPI_DOUBLE, *A, local_n * n, MPI_DOUBLE, 0, MPI_COMM_WORLD);

    for (int i = 0; i < local_n; i++) {
        free(local_A[i]);
    }
    free(local_A);
}

3 性能分析

3.1 五点格式Jacobi迭代求解算法

3.1.1 串行实现

each@Each:~/code$ mpicc jacobi.c -o jacobi -lm
each@Each:~/code$ mpirun -n 2 ./jacobi
Converged after 167 iterations with tolerance 0.000001
MPI并行Jacobi迭代后的部分结果：
0.000000 0.000000 0.000000 0.000000 0.000000 
0.000000 -0.012811 -0.020623 -0.025392 -0.027994 
0.000000 -0.020623 -0.034288 -0.042954 -0.047761 
0.000000 -0.025392 -0.042954 -0.054375 -0.060797 
0.000000 -0.027994 -0.047761 -0.060797 -0.068188

3.1.2 并行实现

each@Each:~/code$ mpicc mpi_jacobi.c -o mpi_jacobi -lm
each@Each:~/code$ mpirun -n 2 ./mpi_jacobi
LU分解后的部分结果：
5.000000
-120.000000
630.000000
-1120.000000
630.000000
LU分解后的部分结果：
5.000000
-120.000000
630.000000
-1120.000000

3.2 直接算法LU分解

3.2.1 串行实现

each@Each:~/code$ mpicc lu_serial.c -o lu_serial -lm
each@Each:~/code$ mpirun -n 2 ./lu_serial
LU分解后的部分结果：
LU分解后的部分结果：
5.000000
-120.000000
630.000000
-1120.000000
630.000000
5.000000
-120.000000
630.000000
-1120.000000
630.000000