关于Pong DQN Reinforcement Learning

本文介绍了强化学习与有监督、无监督学习的区别,并重点讲解了深度Q学习(DQN)的基本原理和算法流程,特别是在Pong游戏中的应用。通过DQN,实现了从原始图像数据到动作的端对端学习,文中还详细阐述了BestAction选择、Agent和AI球拍的更新、球的位置更新以及目标Q值的计算。此外,还讨论了经验池和目标网络在提高算法稳定性和解决相关性问题中的作用。
摘要由CSDN通过智能技术生成

最近看了Pong Game相关的一些东西,对强化学习及深度强化学习有了一些了解。整理如下。
强化学习Reinforcement Learning
机器学习包括有监督的学习,无监督的学习和强化学习。

RL与有监督学习、无监督学习的比较:
  (1)有监督的学习是从一个已经标记的训练集中进行学习,训练集中每一个样本的特征可以视为是对该situation的描述,而其 label 可以视为是应该执行的正确的action,但是有监督的学习不能学习交互的情景,因为在交互的问题中获得期望行为的样例是非常不实际的,agent只能从自己的经历(experience)中进行学习,而experience中采取的行为并一定是最优的。这时利用RL就非常合适,因为RL不是利用正确的行为来指导,而是利用已有的训练信息来对行为进行评价。
  (2)因为RL利用的并不是采取正确行动的experience,从这一点来看和无监督的学习确实有点像,但是还是不一样的,无监督的学习的目的可以说是从一堆未标记样本中发现隐藏的结构,而RL的目的是最大化 reward signal。
  (3)总的来说,RL与其他机器学习算法不同的地方在于:其中没有监督者,只有一个reward信号;反馈是延迟的,不是立即生成的;时间在RL中具有重要的意义;agent的行为会影响之后一系列的data。

DQN(Deep Q-Learning)

DQN(Deep Q-Learnin

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值