Eigen优化实录


原文:https://www.zhihu.com/question/28571059?sort=created


以前也觉得 Eigen 很快,感觉和 mkl 可以媲美。但是昨天 debug 时一行一行看时间,发现这样一个矩阵乘法 \mathbf{A}^{\textrm{T}}\mathbf{A} 要算将近一秒\mathbf{A} \in \mathbb{R}^{4800\times{}1000}),而同样的计算用 MATLAB 只需要肉眼不可察觉的时间

我 google 了一下,在 StackOverflow 上(How to speed up Eigen library's matrix product?)有人讨论说是 MATLAB 内部自动会调用多线程版的 mkl 里的矩阵乘法,而 Eigen 在通常状态下是单线程的,需要在编译时加上 \mathtt{-fopen} 参数使用 openmp 开启多线程。我在自己的 Mac 上尝试了一下,在线程数为 4 的情况下,时间缩短为 0.57 秒,但相比 MATLAB 的肉眼不可察觉还是有差距。

我对计算机底层的硬件不是很熟,只是最近突然觉得处理起这种可以高度矢量化的问题时,(不是非常 wisely 地)使用Eigen 还是没有经过优化的 MATLAB 快。

P.S.: 最开始的单线程版本我使用的是 OS X 自带的 \texttt{g++} 编译器,优化参数为 \texttt{-Ofast}. 测试过加上 \texttt{-msse2} 没有明显区别。这个 \texttt{g++} 实际上是Apple 封装后的 \texttt{clang++},很可惜的是不支持 openmp. 所以为了开启多线程我安装了 GNU \texttt{g++} 编译器。其它编译参数不变。

=================更新==================
刚才又上 StackOverflow 上看了别人的几个帖子( Eigen vs Matlab: parallelized Matrix-Multiplication)学习了一下,发现了几个新的 trick:
  1. 首先之前线程数我设置错误了。我的 CPU physically 应该只有两个核,四线程是 hyper-thread 的结果,多出来的两个线程并不能加速。我把 OMP_NUM_THREADS 改为 2 以后,速度变为 0.55s 左右;
  2. 如果计算矩阵乘法,使用 \mathbf{B}\texttt{.noalias()} = \mathbf{A}^{\textrm{T}}\mathbf{A} 是个不错的 trick,它可以避免生成 temporary 的矩阵存储中间结果。使用这个后缩短为 0.50s 左右;
  3. 对 Eigen 3.3 或以上的版本可以加上 \texttt{-mavx}\texttt{-mfma} 两个参数,进一步缩短为 0.40s 左右。

这样总的下来提速了约 30%.

  • 4
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI算法网奇

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值