文章 iker peng(知乎:https://www.zhihu.com/people/ikerpeng/)原创,转载请与我联系~
深度强化学习在很多决策领域当中都取得了比较不错的结果,尤其是在游戏领域,多个游戏已经达到甚至是超过了人类水平。计算机视觉领域,必定也会尝试这种神奇的算法。然而,到目前为止我们并没有看到在这个领域当中特别成功的例子。计算机视觉任务似乎并没有像游戏那样直观的对应到一个决策的环境或者是可解释的动作步骤。然而我们还是能够在顶级的会议当中发现一些他们的踪迹。
早在2014年,Google DeepMind团队就将深度强化学习应用到了注意力机制当中[1]:
最终,网络的训练采用的是一种策略梯度的算法,也就是REINFORCE算法。
那我们接下来看一些在经典的视觉任务当中使用强化学习的例子。
图像修复(image restoration),以下为CVPR2018的文章[4]: