挖坟了…睡不着觉当个备忘录记一下用过的方法吧
1. 循环向量化
2. 利用函数的矩阵输入功能批量处理
3. 必须用for且费时的地方改成单层parfor,要是循环次数比cpu核数还少反而会拖慢程序
4. 非常大的矩阵的运算可以用gpuArray(这个在matlab 深度学习工具箱中深有体会)
5. 能用矩阵不要用cell,速度慢且占内存巨多
6. 对调用频繁且费时的地方尝试生成c ,写成mex
7. 按编译器提示先初始化矩阵大小(但我大部分时候还是懒得预先算矩阵大小…)
8. Matlab 是可以多开的,如果parfor不能改或者懒得改可以“人肉parfor”,也就是把一个for拆成几段然后多开几个matlab 一起执行,最后再合并结果,比较暴力哈哈
9. 费时的程序最后加个email发送程序,跑完直接把结果发邮箱里
10. 再想想
关于第6条前几天做了个测试,自己造了个filter函数的小轮子,和内置函数,以及相应生成的mex函数的速度进行了对比,大体过程参考[Matlab] 滤波器filter函数造轮子及使用代码生成进行速度优化 给个最后的结果吧:
可以看到自己写的函数转mex后速度能提升一个数量级,这其中主要也是C优化了MATLAB的for循环的功劳。