强化学习：训练加速技巧

哈喽十八子

已于 2022-04-13 17:02:48 修改

阅读量5.4k

点赞数 6

分类专栏：强化学习文章标签：强化学习机器学习人工智能算法

于 2021-02-03 23:24:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36870202/article/details/113621851

版权

文章目录

什么会导致训练慢
相应的加速对策

相比于监督学习和非监督学习，（深度）强化学习模型的训练过程显得更加的缓慢。因此，可能训练过程中需要一些技巧，希望可以提高的 训练效率。

根据以往模型训练和近期项目中的一些经验，汇总出一些有助于训练加速和模型收敛的策略或技巧，以供参考。

什么会导致训练慢

大概有一下几方面。

庞大的探索空间

一般来说，强化学习模型往往有着庞大的需要探索的空间 ${(S,A)\}$ 。
即便对于相对简单的表格型问题，需要探索的空间大小≈状态空间大小×动作空间大小（可能积分更准确，考虑到不同的状态空间，可能对应着的动作空间大小也不相同)，需要探索的空间也很大。
以三子棋(Tic-Toc-Toe) 为例,状态空间大小为 $S|=3^9$ 的量级，动作空间为 $A|=3^2$

最低0.47元/天解锁文章

哈喽十八子

关注

6
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。