强化学习( Reinforcement Learning )与深度学习同属机器学习的范畴,是其中 一 个重要的分支,主要用来解决连续决策的问题。强化不像无监督学习那样完全没有学习目标,也不像监督学习那样有非常明确的目标(如图像分类问题中的label),强化学习的目标是不明确的,模型只会向着能够得到更多奖励的方向去学习。
Q学习
在强化学习中, Q学习( Q Learning )是一种学习 Action 对应的期望价值(Expected Utility )的方法。Q 学习中的期望价值是指在一系列步骤的决策中总共可以获取的最大期望奖励值(即Q值,也就是价值)。
约定:
xt: 模型连续做出 t 步动作后得到的观测结果
at:时刻t观测到xt后所执行的动作
rt:执行动作at获得的奖惩
Rt表示从开始到时刻t为止所获得的累计价值,那么:
深度Q网络
神经网络可以用来学习Q Learning,这样得到的网络模型就是估值网络。深度 Q 网络( Deep QNetwork, DQN )是 Google 的 Deep Mind 于2013 年提出的第一个深度强化学习算法(其他的还有A3C和 UNREAL),并在2015年做了进一步的完善。
深度强化学习
最新推荐文章于 2024-08-26 22:21:22 发布