李宏毅深度强化学习(国语)课程(2018) 笔记（五）Q-learning （Continuous Action）

Interesting AI

已于 2022-07-07 09:01:22 修改

阅读量254

点赞数 1

分类专栏：李宏毅深度强化学习(国语)课程(2018) 文章标签：人工智能深度学习神经网络机器学习 cnn

于 2022-07-02 09:49:23 首次发布

本文链接：https://blog.csdn.net/qq_22749225/article/details/125569400

版权

李宏毅深度强化学习(国语)课程(2018) 专栏收录该内容

8 篇文章

订阅专栏

李宏毅深度强化学习(国语)课程(2018)

李宏毅深度强化学习(国语)课程(2018)_哔哩哔哩_bilibili

在Q Learning里面，只要能够estimate出Q function就能够保证你能够improve 你的policy，estimate Q function是一个regression（回归）问题，可以轻易的知道model是不是learn的越来越好。但是Q learning不太容易处理Continuous Action。

解决方法一：采样一系列行动，看哪个行动会返回最大的Q值，将其变成有限动作的问题。但是这种方法的缺点就是采样不完整。

解决方法二：使用梯度上升来解决这个优化问题（具有较高的计算成本），但是这样做的缺点使计算量过大。