要想驾驭一个机器学习算法,我认为需要思考其四个方面:应用场景、目标变量、损失函数及学习过程。
深度强化学习也不例外:
- 应用场景
上图是强化学习的交互示意图,Agent给出动作(Action),环境更新状态并返回奖赏(Reward)。
我认为只要能满足以下两点,就可尝试使用强化学习框架:
a, 数据流满足示意图的这种交互方式,注意Reward可以有延迟;
b, 可以清晰地表示Action、State及Reward的空间,并能完整地描述需求。 -
目标变量
知道了目标变量,才能知道算法到底在学习什么,也就是设计的神经网络具体在近似什么。
深度强化学习的目标变量需要能表达最大化累计奖赏(cumulative reward),包括直接表达最大累积奖赏(Value)的Q(s,a)、V(s)及表达最优策略(Policy)的π(a|s),或者能表达Value/Policy的其他相关统计量(变化的部分).