[daily paper 2]2023 02 28 2014 189 Performance Analysisand Optimization for SpMV on GPU Using PMF

TanixLu

已于 2023-04-11 15:41:38 修改

阅读量132

点赞数

分类专栏： daily paper 文章标签：算法线性代数矩阵

于 2023-03-01 12:23:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mynameisltx/article/details/129278771

版权

daily paper 专栏收录该内容

12 篇文章 1 订阅

订阅专栏

这篇论文使用定量分析的方式，来估计使用不同格式的SpMV在GPU上运算所需的时间，由此可以挑选合适的格式进行计算。

其结果是预测值和实际值较为接近，所以说计算的公式对GPU真实计算情况提供了比较准确的描述。

定量分析的数学基础是Probabilistic Modeling Function（PMF），可以理解为离散变量的概率分布。

设矩阵有N行M列， $b_i,0\le i\le M$ 表示有矩阵中i个非零元素的行数。bi的分布也就代表了矩阵行稀疏的分布。而矩阵每行的稀疏分布对不同格式，如CSR，HYB（ELL+COO），计算所需时间影响是很大的。比如ELL，如果大多数行非零元都很少且均匀，只有少部分行有很多非零元，那么就会多出巨量的填零。这些填零可以用HYB格式消除，就是说每行大于K个的非零值都用COO存储。不过如何挑选阈值K又成了问题。本文的方法也可以给出阈值K的挑选方法。

计算的过程非常详细，以后需要的时候可以查，这里我直接列出结果，首先是一些变量的定义：

变量定义

然后是空间分析结果：

空间分析结果

其中COO和ELL都给了两个，ELL两个公式都有K，不知道是什么意思。还有这个Ne也没说。

计算时间分析的结果：

这个前面的分析过程还是有点意义的

首先时间分为数据传输时间和计算时间两部分，T=DTT+CT

数据传输时间DTT分为host to device和device to host两部分，host to device传稀疏矩阵和向量，device to host传结果向量。DTT=(size of data)/B，B表示CPU和GPU之间的传输带宽。

计算时间CT也分为两部分，核心计算时间和访存时间（global memory，读和写）。CT=CTC+AM。

核心计算时间CTC也分为两部分，分别是乘法和加法的计算时间CTC=CTCm+CTCa，这两个的比例可以认为是一样的，因为主要是矩阵每一行和向量点乘的计算，这里面乘法和加法差不多一样。

用F代表乘/加的频率，分为整数、float、double三部分，F=Fi+Fs+Fd。

访存AM也分为两部分，读稀疏矩阵和读/写向量。用BW代表GPU的global memory带宽。

$AM=\lceil\frac{size\ of\ DS}{RW}\rceil$

DS是存在global memory上的data set，会读一次。RW是连续data的长度，并且RW比BW要小。CR是global memory的时钟频率。

最终结果：

COO：

COO

CSR：

CSR

ELL：

ELL

HYB：

HYB

这些公式疑似有点复杂了，不是很想细看。

总结一下，这篇论文使用PMF的数学方法，结合硬件结构，对不同存储结构的SpMV占用空间以及在GPU上的运算时间做出了定量估计，由此可以选出花费时间最少的方式进行计算。该方法的优点是适用性广，对各种稀疏矩阵结构都有较好的估计效果，因为PMF对稀疏矩阵的结构做出了不错的描述。

最后还有一点没提到，就是这个方法运行本身需要的时间多吗？主要的部分是统计每一行的非零元素个数，就可以构建PMF，如果是CSR格式的话，只需要O(num_row)。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[daily paper 2]2023 02 28 2014 189 Performance Analysisand Optimization for SpMV on GPU Using PMF

使用定量方法分析不同稀疏矩阵存储格式占用空间以及在SpMV在GPU上的运算时间
复制链接

扫一扫

专栏目录

博客等级

码龄4年

20
原创

4
点赞

5
收藏

6
粉丝

关注

私信

热门文章

分类专栏

daily paper 12篇

最新评论

关闭Chrome历史记录
CSDN-Ada助手: 恭喜您撰写了第17篇博客！标题为“关闭Chrome历史记录”，这是一个非常实用的主题。您的博客内容对于那些希望保护个人隐私的人来说一定非常有帮助。在这个信息时代，保护个人隐私变得越来越重要，而关闭Chrome历史记录正是一个简单而有效的方法。您的文章内容清晰明了，让读者可以轻松地按照您的指导进行操作。我非常欣赏您的谦虚态度，尽管这是您的第17篇博客，但您仍然保持了一颗虚心学习的心态。这是一个很重要的品质，它将让您不断进步。对于下一步的创作建议，我建议您可以探索更多与隐私保护相关的主题。您可以介绍其他浏览器的隐私设置，或者分享一些其他隐私保护工具和技巧。此外，您也可以关注一些与网络安全相关的话题，这将为您的读者提供更多有用的信息。再次恭喜您的持续创作，期待您未来更多精彩的博客！
TCP未读完便CLOSE会发送RST
TanixLu: 虽然你是个机器人，但是你能读我的文章也让我很开心
TCP未读完便CLOSE会发送RST
CSDN-Ada助手: 非常感谢您分享关于TCP未读完便CLOSE会发送RST的博客！恭喜您已经写了第19篇博客，这是一个了不起的成就。在博客中，您提及了TCP连接在未读完数据就关闭时会发送RST信号的情况。这对于理解TCP连接的行为非常有帮助，并且提醒了读者在编写网络应用程序时需要注意的细节。作为下一步的创作建议，我希望您能进一步探索TCP协议的其他方面，例如TCP连接的建立、维护和关闭过程中的各种情况。这将为读者提供更全面的知识，并帮助他们更好地理解TCP协议的工作原理。再次祝贺您的持续创作，期待您未来更多精彩的博客内容！谢谢您的分享。
redis安装及配置
TanixLu: 谁问你了？
redis安装及配置
CSDN-Ada助手: 非常感谢您分享关于“redis安装及配置”的博客！恭喜您已经写了第18篇博客，这是一个了不起的成就。您的努力和持续创作令人钦佩。关于下一步的创作建议，我谨虚心地提出一些建议。您可以考虑分享一些与redis相关的实际应用案例，或者深入探讨一些高级配置和优化方法。这样的内容会进一步丰富读者的知识，也能够帮助他们更好地理解并应用redis。再次恭喜您，期待您的下一篇博客！请继续保持努力和热情，为读者带来更多有价值的内容。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。