并行程序设计
文章平均质量分 96
Augstine Xyang
这个作者很懒,什么都没留下…
展开
-
运用SIMD、pthread/OpenMP、MPI、GPU并行加速高斯消元算法
通过学习SIMD、pthread&OpenMP和MPI以及GPU等可以进行并行优化计算的方法,并在高斯消元算法和特殊高斯消元算法上进行了实践,在普通高斯消元算法中,我通过对齐内存+AVX指令集+8线程OpenMP+非阻塞通信的流水线版本的4进程MPI实现了最高24.72的加速比,大大降低了程序执行时间,而后又通过GPU加速,得到了41的超高加速比,这样的结果说明了CPU加速方法的实用性,又体现出GPU对于处理大规模数据的天然优势,为如何处理大规模浮点数的运算带来了启发;原创 2023-07-25 12:17:34 · 1520 阅读 · 2 评论 -
英特尔黑客松培训以及CUDA编程优化高斯消元算法
本次实验在DevCloud云平台上完成了黑客松培训的练习3、4,并在本地电脑上进行了CUDA的GPU编程练习,对高斯消元算法进行了并行加速,对于GPU编程有了初步的认识和了解英特尔黑客松,CUDA,GPU编程,并行加速原创 2023-07-24 20:46:03 · 153 阅读 · 0 评论 -
MPI优化高斯消元算法
本次实验在ARM平台和x86平台进行MPI的并行编程实验,同时将尝试MPI和此前的pthread/OpenMP或是SIMD的结合,探究如何进一步提高加速比和不同的并行执行方式原创 2023-07-24 20:29:24 · 305 阅读 · 0 评论 -
pthread & OpenMP 优化高斯消元算法
本次实验结合Arm平台NEON指令集和X86平台的AVX指令集来对高斯消元算法进行pthread的多线程优化,并探究不同优化方法(信号量或barrier同步)、编程策略的优化幅度;此外,本次实验还将在x86平台上利用OpenMP进行高斯消元算法的多线程优化,并探究不同任务划分方案的影响。原创 2023-07-24 20:01:45 · 681 阅读 · 0 评论 -
SIMD优化高斯消元算法
本次实验将用Arm平台NEON指令集和X86平台的SSE、AVX指令集来对高斯消元法进行优化,并探究不同优化方案、编程策略和对消元算法不同部分的SIMD优化带来的影响原创 2023-07-24 18:50:40 · 610 阅读 · 0 评论 -
Cache架构优化和AMD μProf的简单使用
本次实验将探究Cache优化、超标量优化两种对程序的优化方法以及带来的性能提升,从实验结果中探究并行程序设计的优越之处。并行程序设计,Cache优化,超标量优化,CPU Profillingx86平台,Windows 10 64位操作系统,CPU型号AMDR7-5800h,8核16线程,主频3.2GHz,单核拥有32KB一级数据、32KB一级指令缓存、512KB二级缓存、共享16MB三级缓存;原创 2023-07-24 12:10:15 · 530 阅读 · 0 评论