《Bandwidth Reduced Parallel SpMV on the SW26010 Many-Core Platform》读后笔记

最新推荐文章于 2023-02-18 12:28:06 发布

adam1173529071

最新推荐文章于 2023-02-18 12:28:06 发布

阅读量467

点赞数

分类专栏：学习笔记算法学习文章标签：稀疏矩阵向量乘

本文链接：https://blog.csdn.net/qwe1173529071/article/details/89500536

版权

本文介绍了针对SW26010多核平台的稀疏矩阵向量乘(SpMV)算法优化方法，主要包括：预处理阶段将矩阵分割为均匀的row-slice；动态前向规划技术减少x的无效读取，降低带宽需求；通过CPE分组共享x数据，进一步减少访存；设计参数自动调整框架以适应不同矩阵；采用原子操作工作池确保负载均衡。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

核心思路：1）通过轻工作量的预处理阶段，把矩阵A纵向从上到下分割成一个个的row-slice，划分后每个row-slice中的非零元个数大致相同。每个row-slice由一个CPE单独计算。

2）计算一个row-slice时，读取相应的x时使用动态前向规划技术避免取到无用的x，降低了带宽。

3）对CPE进行划分，同组CPE可以共享所需要的x，可进一步降低带宽。

4）设计了parameter auto-tuning框架（我理解就是测试套件），使得算法更适用于不同的矩阵。

5）运行时采用atomic-operation based work-sharing pool确保负载平衡，这项主要配合1）

下面是详细说明：

1）预处理阶段

MPE确定每个row-slice最多包含多少行、最多有多少个非零元后，对矩阵A进行一次遍历，遍历后的划分出的每个row-slice包含非零元个数大致相同。另外，row-slice中同一行的元素也是分批读取的。

2）如何避免取到无用的x

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

adam1173529071

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

超级计算机 26010,全球最强超级计算机搭载的SW26010处理器解析

weixin_39962285的博客

07-20

2265

全球最强超级计算机神威·太湖之光搭载的申威26010处理器每片处理器包含4个核心，片上的4个核心通过片上网络互联，并通过PCI-E 3.0对外连接，每个核心拥有独立的128位DDR3控制器连接到8GB DDR3-2133内存，这样4个核心一共拥有32GB的DDR3内存。从这里可以看出SW26010实际上类似于用胶水把4个独立的处理器粘在了一起，整合到了一个芯片里面，但是每个核心还是可以独立工作，而...

distributed sparse matrix SPMV（分布式稀疏矩阵的spmv操作）

lizhengjiang的专栏

04-30

2018

分布式vector，不存在各procs上的部分vector通信的问题，即各部分的vector是独立的。而分布式矩阵（dsm)，在各procs所持有子矩阵的边界上，需要与邻居procs通信。dsm的通信系数，在mpi_matrix里面给出了。具体到spmv 操作中： 1 通信，得到+ghost矩阵：矩阵（边界）元素发送／接受 47 for(int i=

参与评论您还未登录，请先登录后发表或查看评论

SW26010申威资料整合.docx

06-27

整合网络上的一些关于sw26010的一些资料包括整体结构，访存性能，指令流水线等。方便各位了解其结构和浮点性能。

中科院计算所的众核(ManyCore)技术研究

fish_yu8的专栏

11-26

5230

中科院计算所的众核(ManyCore)技术研究范东睿顾名思义，众核(ManyCore)处理器比多核(MultiCore)处理器中的处理内核数量还要多，计算能力更强大，这得益于1965年Gordon Moore预测的Moore定律在延续。如果从wikipedia上搜索ManyCore，你会得到这样的介绍：“当前的软件结构可以在当前的多核结构上得到较好的扩展，但如果超过八个处理

神威太湖之光夺冠Top500，采用国产众核处理器SW26010

happytofly的博客

06-21

3290

稀疏矩阵向量乘法

m0_74478846的博客

02-18

2460

稀疏矩阵向量乘（SpMV）把一个稀疏矩阵与一个向量相乘。稀疏矩阵是指矩阵中大部分元素为0的矩阵。这里的向量本身也可是稀疏的，但通常情况下是密集的。作为一种通用的运算，在科学应用、经济模型、数据挖掘、信息检索中广泛应用。例如，在利用迭代法求解稀疏线性方程组和特征值的问题。同时，也被应用于网页搜索排名和计算机视觉（图像重构等）。

A 77dB SNDR 12.5MHz Bandwidth 0-1 MASH ΣΔ ADC Based on the Pipelined-SAR Structure

02-08

This paper presents a wide-band and energy-efficient 0-1 MASH ΣΔ ADC which is realized based on the pipelined-SAR structure. Composed by a 6b SAR ADC in the 1st-stage and a 5b SAR ADC in the 2nd-...

Parallel-core-type polarization rotator for silicon wire waveguide platform

02-05

We describe a polarization rotator based on a parallel-core structure consisting of a silicon nanowire waveguide and a silicon-nitride waveguide. The 60-μm-long rotator provides a polarization ...

Bandwidth-efficient visible light communication system based on faster-than-Nyquist pre-coded CAP modulation

02-04

a kind of bandwidth-efficient VLC system based on carrierless amplitude and phase (CAP) modulation is proposed, where a simple differential faster-than-Nyquist (FTN) pre-coding scheme is employed to ...

High Bandwidth Sensorless Algorithm for AC Machines Based on Square-wave Type

09-17

This paper describes a new control algorithm which can enhance the dynamics of a ... the bandwidth of the current controller was enhanced up to 250 Hz, and that of the speed controller was up to 50 Hz.

《FPGA并行编程》读书笔记（第一期）06_SpMV

qq_35712169的博客

09-22

1199

从这一章节往后，基本没有关于HLS的新知识了，如果对应章节没有啥需要注意的地方，该章节的更新会一笔带过，大家认真阅读原书籍即可，好好读那本书籍比看我的总结有用的多。如果有问题，欢迎后台私聊（微信没有评论好不方便），或者去我的知乎上发表评论，期待通过讨论一起学习一起进步。

保研准备经验

闫昊的博客

12-28

1035

保研面试的经验

记录一些自己碰到的大坑

闫昊的博客

03-09

245

自己碰到过的大坑

MTC机器类型通信

lvhuowangzi的博客

01-03

3604

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录为什么需要MTC？1、如何实现BL and CE?1.1 引入NB来实现BL(bandwidth reduced low complexity)1.2 通过重复来实现CE(coverage enhanced)2、窄带和重复的引入会如何具体地影响物理信道和调度相关方面？1. PSS/SSS/PBCH2. SI3. MPDCCH/PDSCH/PUCCH/PUSCH4. 随机接入为什么需要MTC？ MTC(Machine Type

关于ManyCore的一些讨论

余璜的技术博客

05-07

2617

T-MCer 说:Bad News：虽然我们认为采用ncc NUMA来解决cache coherence的问题，但目前还很难找到有相关研究认为未来的multi core应该取消cache coherence的限制，do you have any info.？Ray 说:我昨天看Tilera（100core）的产品说明，他们也保证cache一致性：Tileras D

WIN10+MX150+VS2013安装CUDA9.2

闫昊的博客

09-20

7562

记录一下在自己PC上安装cuda的过程。OS是win10，IDE为VS2013，显卡为GeForce MX150。（驱动版本24.21.13.9882） 1.首先确认自己系统的显卡可用。打开设备管理器，找到显示适配器，查看显卡是否可以工作。如果驱动错误，那么会显示叹号，如下图双击之后查看属性，显示如下比较迷的是MX150写这篇博客时候也出来没多久，最新的驱动居然是这样的结果。。。...

TVM优化原理学习

闫昊的博客

06-29

3014

TVM原理的学习

《A (Sub)Graph Isomorphism Algorithm for Matching Large Graphs》论文总结

闫昊的博客

11-19

2051

解决子图同构的VF2算法论文的理解

《An Algorithm for Subgraph Isomorphism》论文总结

闫昊的博客

11-08

1883

人生第一次看论文，用时4天，这里记录一下论文大体内容和自己的理解与对算法的修改。论文链接http://theory.stanford.edu/~virgi/cs267/lecture1.pdf 子图同构的概念请自行了解，可以百度可以看wiki。通俗的讲两个图同构的意思就是对其中一张图的结点重新编号以后，两张图长的一样。也可以说是一种对应关系，只要点与点的对应关系合适，那么两张图的邻接矩阵一样

Maximum data rate is affected by the bandwidth and signal-to-noise ratio of the channel.