![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
BLIS学习
文章平均质量分 95
GutsShinyHero
这个作者很懒,什么都没留下…
展开
-
【并行程序性能分析】学习《MPI与Open MP并行程序设计:C语言版》
○ Amdahl定律这是向前看的定律。该定律依赖于对串行程序的评估来预测在并行计算系统上执行程序以加速程序中可并行部分的执行时,所能达到的加速比上限。○ Gustafson Barsis定律这是向后看的定律。该定律依赖于对并行程序的测试以预测程序在具有足够内存的串行处理器上的执行时间。由于处理器个数增加时可以增加问题的规模,我们称Gustafson-Baris定律提供了比例加速比的估算。○ Kap-Flatt度量考察了并行程序在解决固定规模问题时加速比。原创 2024-03-21 21:13:18 · 900 阅读 · 0 评论 -
[面向多核的BLIS优化,论文个人阅读分享]Anatomy of High-Performance Many-Threaded Matrix Multiplication
描述BLIS如何扩展GotoBLAS来实现矩阵乘法(GEMM)。GEMM以前是围绕一个内部内核实现的三个循环,而BLIS在这个内部内核中公开了两个额外的循环,将计算转换为BLIS微内核,这样移植GEMM就变成了为给定的体系结构定制这个微内核的问题。我们将讨论这如何促进更精细的并行性,从而极大地简化了GEMM的多线程,以及并行多个循环的额外机会。原创 2024-03-21 19:55:06 · 743 阅读 · 1 评论 -
[BLIS参数分析,论文个人阅读分享]Analytical Modeling Is Enough for High-Performance BLIS
展示了类似BLAS的库实例化软件(BLIS)框架,提供了GotoBLAS(现在维护为OpenBLAS)实现的更详细的分层,允许在数学上分析地确定矩阵乘法的高端实例化的调优参数。从多级cache的角度建立了关于GotoBLAS方法的五个参数mrm_rmrnrn_rnrmcm_cmckck_ckcncn_cnc的数学模型,为BLIS在复杂高性能体系结构的应用提供了一种参数分析方法。原创 2024-03-21 16:43:18 · 718 阅读 · 1 评论