对深度强化学习的理解

Deep Mind第一个正式提出DQN的概念并能够做出比较有效果的实验。
一直以来,强化学习都面临对人工提取特征的依赖的问题,深度神经网络的发展给问题的解决带来了希望,卷积神经网络可以从像素矩阵中直接提取出可以和人工提取值相媲美的特征值。就是,把一张游戏的图片传进去,卷积神经网络就可以辨识出图片中任务所处的状态,例如:在什么地方、周围是什么环境。
Deep Mind在他们的DQN模型中使用了经验回放机制,即把每一个time_step中的状态存起来,作为一个经验,在每一个time_step的末尾,随机从经验集中选取出一条经验进行学习。这样,可以降低数据之间的关联度,并且可以缓解数据格式(data distribution)经常变化的问题。
此外,Deep Mind使用带权值的神经网络函数来估计Q函数,对于强化学习来说,Q函数是离散的,没有固定的式子,而带参数的Q函数需要将S转化为向量值作为输入,这样,可以使用类似随机梯度下降的方式对参数进行更新。
DQN的关键代码如下:
这里写图片描述
SGW PPT参见资源

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值