Introduction
传统RL手动提取选择特征,DL(CNN)可以根据raw sensory的数据抽象出一些high-level特征,DRL的困难:
- DL训练使用大量的labeled数据,而RL数据量小,且reward和action之间的delay
- DL样本间独立,RL样本间相关
- RL样本的分布随着学习改变,DL中设定的固定的分布
本文针对2,3困难的方法:
experience replay机制:将经验
et=(st,at,rt,st+1)
e
t
=
(
s
t
,
a
t
,
r
t
,
s
t
+
1
)
放入经验池D中,对
θ
θ
进行SGD时随机从D中选取样本训练。意义是使当下的选择不会很强烈的影响
θ
θ
,这样最终得到的Q(s,a;
θ
θ
)会收敛,而且SGD不容易掉入局部最优值。
目标:agent不需要了解游戏的信息也不需要定义任何的特征,和emulator的内部状态,只是获取图像的输入(像素点向量),reward(得分的变化 rt r t ),terminal signals, action set.(等同于人类)
Background
1Reinforcement Learning - An Introduction
2function approximation to estimate Q*(s, a)
理论上Q*可以经过迭代得到,实际操作中对于每个Q(
st
s
t
, a)的估计都是独立的,不采取迭代,神经网络函数Q(s,a;
θ
θ
)来拟合代替Q(s,a), Loss function:
SGD for weight
θ
θ
:
on-policy vs off-policy
DeepMind vs TD-Gammon
TD-Gammon使用的神经网络是MLP和一个hidden layer,DeepMind卷积神经网络。TD-Gammon是on-policy,DeepMind使用了experience replay。
DRL
CNN的一篇论文: ImageNet Classification with Deep Convolutional Neural Networks
Deep Q-Learning with Experience Replay:
Experiments
- positive reward->1 negative reward->-1 0->0
- 不同的游戏可以使用相同的学习率
- 减小error偏差
- 坏处是效果会变差因为不能定量区分reward
- RMSProp 算法 minibatch:32
- frame-skipping technique
- 训练效果
- 随着episode增加,每局游戏的平均的reward变化noisy,没有明显的趋势。 最大Q(s,a; θ θ )增大