java矩阵加法_CUBLAS - 矩阵加法......怎么样?

如果你只是添加矩阵,它实际上并不重要 . 你给它alpha,Aij,beta和Cij . 它认为你给它alpha,Aji,beta和Cji,并给你它认为是Cji = beta Cji alpha Aji . 但就你而言,那是正确的Cij . 我担心的是当你开始做有关事的事情 - 比如矩阵产品 . 在那里,可能没有解决它 .

但更重要的是,你不需要做一个完全没有意义的矩阵乘法(需要大约20,0003次操作和多次通过内存)才能进行操作,这只需要大约20,000次操作和一次通过!将matricies视为20,000 ^ 2长矢量并使用saxpy .

矩阵乘法是内存带宽密集型的,因此在自己编码和调优版本之间存在巨大的(10倍或100倍)性能差异 . 理想情况下,在这种情况下,您只需使用线性代数标识即可进行管理 . C-vs-Fortran排序意味着当你传入A,CUBLAS "sees" AT(转置)时 . 哪个好,我们可以解决它 . 如果你想要的是C = A.B,以相反的顺序传入基础,B.A . 然后库看到(BT.AT),并计算CT =(A.B)T;然后当它传回CT时,你得到(按照你的订单)C . 测试并查看 .

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值