关于Pong DQN Reinforcement Learning

最新推荐文章于 2023-02-28 21:21:10 发布

走路带风的女纸

最新推荐文章于 2023-02-28 21:21:10 发布

阅读量1.6k

点赞数

分类专栏： DRL 文章标签： pong RL DL DQN DRL

本文链接：https://blog.csdn.net/qq_30501837/article/details/83379324

版权

本文介绍了强化学习与有监督、无监督学习的区别，并重点讲解了深度Q学习（DQN）的基本原理和算法流程，特别是在Pong游戏中的应用。通过DQN，实现了从原始图像数据到动作的端对端学习，文中还详细阐述了BestAction选择、Agent和AI球拍的更新、球的位置更新以及目标Q值的计算。此外，还讨论了经验池和目标网络在提高算法稳定性和解决相关性问题中的作用。

摘要由CSDN通过智能技术生成

最近看了Pong Game相关的一些东西，对强化学习及深度强化学习有了一些了解。整理如下。
强化学习Reinforcement Learning
机器学习包括有监督的学习，无监督的学习和强化学习。

RL与有监督学习、无监督学习的比较：
　　（1）有监督的学习是从一个已经标记的训练集中进行学习，训练集中每一个样本的特征可以视为是对该situation的描述，而其 label 可以视为是应该执行的正确的action，但是有监督的学习不能学习交互的情景，因为在交互的问题中获得期望行为的样例是非常不实际的，agent只能从自己的经历（experience）中进行学习，而experience中采取的行为并一定是最优的。这时利用RL就非常合适，因为RL不是利用正确的行为来指导，而是利用已有的训练信息来对行为进行评价。
　　（2）因为RL利用的并不是采取正确行动的experience，从这一点来看和无监督的学习确实有点像，但是还是不一样的，无监督的学习的目的可以说是从一堆未标记样本中发现隐藏的结构，而RL的目的是最大化 reward signal。
　　（3）总的来说，RL与其他机器学习算法不同的地方在于：其中没有监督者，只有一个reward信号；反馈是延迟的，不是立即生成的；时间在RL中具有重要的意义；agent的行为会影响之后一系列的data。

DQN（Deep Q-Learning）