缘起
随着这波人工智能浪潮的兴起,强化学习(Reinforcement Learning,RL)这坛陈年老酒也借势找到了深度学习这个新瓶子,重新吸引了学术界、工业界乃至吃瓜群众的注意力。对于很多人来说,AI闯入他们视野的标志性事件不是2012年AlexNet的横空出世,而是AlphaGo击败李世石引起的轩然大波。可以这样说,深度强化学习(DRL)不仅点燃了世人对AI的热情,而随着CV方向性能瓶颈的出现,作为一个缺点多多、槽点满满的算法框架,DRL正在吸引越来越多的学者前来填坑,从各大AI顶会RL方向文章数量的逐年上升可见一斑。
算法工作者的“知行合一”
如今网上关于DRL的科普文可谓汗牛充栋,图文与公式并茂,paper与代码齐飞。我自知水平有限,无意在DRL科普界班门弄斧。另一方面我认为算法工作者不应只局限在原理层面,看懂很多公式不代表拥有动手能力;也不应满足于跑通toy tasks的demo,知其然不知其所以然,面对实际问题时可能依旧一头雾水。算法工作者的“知行合一”,需要经历从抽象算法原理到广泛动手实践再上升到统一方法论这三个必要阶段,唯有如此才算真正掌握了知识。
我将通过该系列文章,对这两年DRL落地工作中的一些感悟和心得做些粗略总结,若能对读者启发一二则善莫大焉,如有纰漏谬误也真心期待得到大家的批评指正,我深信持续的交流是进步的源泉,也是我写下这