深度强化学习5：Q-learning用于连续动作 (NAF算法)

最新推荐文章于 2024-06-17 15:40:09 发布

AI_Younger_Man

最新推荐文章于 2024-06-17 15:40:09 发布

阅读量713

点赞数 1

分类专栏： # 强化学习

本文链接：https://blog.csdn.net/qq_38888209/article/details/107999233

版权

本文介绍了Q-learning在处理连续动作时面临的挑战，包括穷举action和使用梯度上升求Q-value的问题。接着，详细阐述了Normalized Advantage Functions（NAF）算法，解释了其如何解决这些问题，以及NAF网络的设计和执行过程。NAF通过输出动作和Q value，实现了在连续动作空间中的优化。此外，还提到了不使用Q-learning而采用actor-critic的方法。

摘要由CSDN通过智能技术生成

【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (NAF算法)

qqqeeevvv 2020-01-26 00:53:56

2806

分类专栏：强化学习 # 理论知识

            </div>
            </div>
                            <div class="up-time"><span>最后发布：2020-01-26 00:53:56</span><span>首次发布：2020-01-24 01:14:24</span></div>
            <div class="slide-content-box">
            <div class="all-tags-box">
                                </div>
                                                                <div class="article-copyright">
                        <div class="creativecommons">
                            <a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/"></a>
                        </div>
                        <div class="creativecommons">
                            版权声明：本文为博主原创文章，遵循<a href="http://creativecommons.org/licenses/by-sa/4.0/" target="_blan