深度强化学习

强化学习( Reinforcement Learning )与深度学习同属机器学习的范畴,是其中 一 个重要的分支,主要用来解决连续决策的问题。强化不像无监督学习那样完全没有学习目标,也不像监督学习那样有非常明确的目标(如图像分类问题中的label),强化学习的目标是不明确的,模型只会向着能够得到更多奖励的方向去学习。
Q学习
在强化学习中, Q学习( Q Learning )是一种学习 Action 对应的期望价值(Expected Utility )的方法。Q 学习中的期望价值是指在一系列步骤的决策中总共可以获取的最大期望奖励值(即Q值,也就是价值)。
约定:
xt: 模型连续做出 t 步动作后得到的观测结果
at:时刻t观测到xt后所执行的动作
rt:执行动作at获得的奖惩
Rt表示从开始到时刻t为止所获得的累计价值,那么:
在这里插入图片描述在这里插入图片描述深度Q网络
神经网络可以用来学习Q Learning,这样得到的网络模型就是估值网络。深度 Q 网络( Deep QNetwork, DQN )是 Google 的 Deep Mind 于2013 年提出的第一个深度强化学习算法(其他的还有A3C和 UNREAL),并在2015年做了进一步的完善。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值