1.强化学习的问题
Trial-and-error exploration
Delayed reward
Time matters (sequential data, non i.i.d data)
Agent’s actions affect the subsequent data it receives (agent’s action changes the environment)
2.深度强化学习
在deep learning之前,传统CV往往是先提取特征,再训练分类器。RL遇到高维状态也是这样。有了DRL,可以构造一个端到端的模型,同时完成特征提取和“分类”。看了一些value based paper,感觉这类DRL更像是利用强化学习来构造标签,利用神经网络来学习。而policy based DRL更像是在普通分类问题上加了一个Reward作为更新步长的refine。