matlab 声明gpu,科学网—gpu加速matlab计算 —— 1.定义gpu内核 - 刘凯的博文

最近一段时间,博主在学习利用 gpu 加速 matlab 计算,有了一些心得,拿出来和大家分享。

先声明一下版本:

matlab:R2016b

gpu:GeForce GTX 745

博主的研究课题与库仑三体系统相关,需要计算电子的经典运动轨迹,不可避免地用到 ode 求解器。遗憾的是,能够在 gpu 上运行的 matlab 重载函数并不包括 ode 函数,于是博主选择了在 matlab 中定义 gpu 内核(cuda编程的优点更多,前提是你得会编)。注意:matlab 的帮助文档明确指出,只允许用标量算术方法定义在 gpu 上执行的内核,这意味着所有的矢量、矩阵和数组都要拆成分量形式。

ea3afbf6b619a9b5542f43c46d22cae1.png

能够在内核中使用的内置 matlab 函数和操作,总共139个。

cefce02639c0dd7aae41e15832e345c3.png

以最常用的 ode45 为例,它是显式龙格-库塔 (4,5) 对的一种变步长积分算法,每步有 7 个阶段。由于使用了具有一致性的 FSAL 方案,仅需估算 6 个函数值就能求得 4/5 阶精确解。

参考 matlab 的源代码,先完成一步积分,再加入步长控制和误差估计。

7c62a4eb737a5b66e2192f258cbf1154.png

矩阵 A、B 和 E 构成了一个 Butcher 表格,矩阵 B 中的每一列元素的加和等于矩阵 A 中的每一列元素。neq 为常微分方程的个数,每一个常微分方程都要估算 7 个函数值,第 7 个函数值作为下一步积分中的第 1 个函数值,实际上每一步只用估算 6 个函数值。

8679a86a497cc15cf1e391189f7a48d2.png

odeFcn 是要求解的常微分方程;除去两个端点的函数值,还要在时间步骤 h 中估算 5 个函数值,因此 RK5 用来传播解。

106b7471d08299300c1d3b647bdbfa84.png

absh * f * E 为 4/5 阶精确解的差值;y、ynew 的绝对值过小,会导致 err 过大,加入阈值项 (绝对误差 atol 除以相对误差 rtol 的商) 予以修正。

4fc916d10c7a6055d9b642c4dc6551e7.png

计算得到的 err 大于相对误差 rtol,缩小积分步长;反之,如果在一步积分中第一次计算得到的 err 小于相对误差 rtol,则增大积分步长。与定步长相比,变步长的计算量更小,精度也更高。

9e1ba7dd5b49f4a6687bba30bd0ee21a.png

参考:微信公众号SPACEofPHD ( http://url.cn/58N4aRl  )

转载本文请联系原作者获取授权,同时请注明本文来自刘凯科学网博客。

链接地址:http://blog.sciencenet.cn/blog-3352693-1118189.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值