根据视频学习DQN(Deep Q-learning)

学习网址:https://www.bilibili.com/video/BV1We4y1w7Us?p=3&vd_source=11b7b2a48a6540147996012cfff314e8

第一节P1:深度强化学习中用到的基本概念
P2:关于DQN的输入及输出,以及详细的讲了其更新Q的原理及过程。
P3:策略函数π【是一个概率密度函数,所有结果值加和为1】

策略函数与Q
都是深度强化学习对未来预测的途径,知道其一即可解决问题。不同点在于,Q*是只与当前S与A有关的,它针对某一时刻的S,对该时刻可以进行的动作A打分,机器选择得分高的动作以继续游戏。而策略函数是对该时刻S可进行的动作A计算出概率,然后机器进行一次随机抽样以继续进行游戏。

P4:更新过程如下,用TD更新w,以此来改进Qπ(价值网络)。用w来更新θ,以此来改进π(策略网络)。
在这里插入图片描述
P5:强化学习有奖励,而模仿学习(如limitation learning)没有奖励,其训练的目的是模仿行为。
Behavior cloning 是一种limitation learning,是一种分类或回归方法,而不是强化学习方法
P6:蒙特卡洛算法-一种近似求解的算法
P7:Sarsa算法-TD算法的一种
P8:Q-learning -也是一种TD算法,Sarsa是用来训练Qπ
Q-learning 是用来训练Q*

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值