《Bandwidth Reduced Parallel SpMV on the SW26010 Many-Core Platform》读后笔记

本文介绍了针对SW26010多核平台的稀疏矩阵向量乘(SpMV)算法优化方法,主要包括:预处理阶段将矩阵分割为均匀的row-slice;动态前向规划技术减少x的无效读取,降低带宽需求;通过CPE分组共享x数据,进一步减少访存;设计参数自动调整框架以适应不同矩阵;采用原子操作工作池确保负载均衡。
摘要由CSDN通过智能技术生成

核心思路:1)通过轻工作量的预处理阶段,把矩阵A纵向从上到下分割成一个个的row-slice,划分后每个row-slice中的非零元个数大致相同。每个row-slice由一个CPE单独计算。

2)计算一个row-slice时,读取相应的x时使用动态前向规划技术避免取到无用的x,降低了带宽。

3)对CPE进行划分,同组CPE可以共享所需要的x,可进一步降低带宽。

4)设计了parameter auto-tuning框架(我理解就是测试套件),使得算法更适用于不同的矩阵。

5)运行时采用atomic-operation based work-sharing pool确保负载平衡,这项主要配合1)

下面是详细说明:

1)预处理阶段

MPE确定每个row-slice最多包含多少行、最多有多少个非零元后,对矩阵A进行一次遍历,遍历后的划分出的每个row-slice包含非零元个数大致相同。另外,row-slice中同一行的元素也是分批读取的。

2)如何避免取到无用的x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值