Playing atari with deep reinforcement learning

Introduction

传统RL手动提取选择特征,DL(CNN)可以根据raw sensory的数据抽象出一些high-level特征,DRL的困难:

  1. DL训练使用大量的labeled数据,而RL数据量小,且reward和action之间的delay
  2. DL样本间独立,RL样本间相关
  3. RL样本的分布随着学习改变,DL中设定的固定的分布

本文针对2,3困难的方法:
experience replay机制:将经验 et=(st,at,rt,st+1) e t = ( s t , a t , r t , s t + 1 ) 放入经验池D中,对 θ θ 进行SGD时随机从D中选取样本训练。意义是使当下的选择不会很强烈的影响 θ θ ,这样最终得到的Q(s,a; θ θ )会收敛,而且SGD不容易掉入局部最优值。

目标:agent不需要了解游戏的信息也不需要定义任何的特征,和emulator的内部状态,只是获取图像的输入(像素点向量),reward(得分的变化 rt r t ),terminal signals, action set.(等同于人类)

Background

1Reinforcement Learning - An Introduction
2function approximation to estimate Q*(s, a)

理论上Q*可以经过迭代得到,实际操作中对于每个Q( st s t , a)的估计都是独立的,不采取迭代,神经网络函数Q(s,a; θ θ )来拟合代替Q(s,a), Loss function:


SGD for weight θ θ

on-policy vs off-policy

DeepMind vs TD-Gammon

TD-Gammon使用的神经网络是MLP和一个hidden layer,DeepMind卷积神经网络。TD-Gammon是on-policy,DeepMind使用了experience replay。

DRL

CNN的一篇论文: ImageNet Classification with Deep Convolutional Neural Networks

Deep Q-Learning with Experience Replay:
algorithm

Experiments

  • positive reward->1 negative reward->-1 0->0
    • 不同的游戏可以使用相同的学习率
    • 减小error偏差
    • 坏处是效果会变差因为不能定量区分reward
  • RMSProp 算法 minibatch:32
  • frame-skipping technique
  • 训练效果
    • 随着episode增加,每局游戏的平均的reward变化noisy,没有明显的趋势。 最大Q(s,a; θ θ )增大
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值