密集矩阵分解的基准

该基准测试是在配备英特尔酷睿i7 @ 2,6 GHz的笔记本电脑上运行的,并且在启用了AVX和FMA指令集的情况下进行了编译,但没有多线程。 它使用单精度浮点数。 对于double,您可以通过将时间乘以因子2来获得良好的估计。

方形矩阵是对称的,对于过约束矩阵,报告的时序包括基于Cholesky和LU计算前四个求解器的对称协方差矩阵$ A ^ TA $的成本,用*符号表示(右上角) 角落的一部分)。 时间以毫秒为单位,因子与LLT分解有关,LLT分解是最快但也最不通用且最稳健的。

总结

  • LLT始终是最快的求解器。
  • 对于很大程度上过度约束的问题,Cholesky / LU分解的成本主要由对称协方差矩阵的计算决定。
  • 对于大问题规模,只有实现缓存友好阻塞策略的分解才能很好地扩展。 这些包括LLT,PartialPivLU,HouseholderQR和BDCSVD。 这解释了为什么对于4k x 4k矩阵,HouseholderQR比LDLT更快。 将来,LDLT和ColPivHouseholderQR也将实施阻止策略。
  • CompleteOrthogonalDecomposition基于ColPivHouseholderQR,因此可以达到相同的性能水平。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值