百度强化学习训练营心得
这次强化学习训练营,总讲课时间5小时,是一次强化学习的“快餐”。
在训练营中,快速学习了几种经典算法,通过代码补齐作业大概了解了Parl框架用法。范式化的代码结合Parl库简化了强化学习流程,使初学者也能体验一把炼丹的快感。
在创意赛选题过程中,发现强化学习并不像课程内容那样浅易。模仿学习、few-shot等概念在查资料过程中不断蹦出,猝不及防。
也许,这次学习,与其类比快餐,不如说是打开了螃蟹壳,大概看到了强化学习的解题路线、Parl框架下编程范式。螃蟹好吃却麻烦,强化学习大概也如此,每进一步的深挖都可能是艰辛的,随之而来的也会是更高阶的知识经验。那么,为什么强化学习的世界会是如此呢?
一方面,强化学习在生产生活中尚未开发出大量应用点,主流研究仍在模拟器、游戏环境中。另一方面,这种“无用之用”已经在一些专业领域开始融入产业实际,如:基于强化学习的锅炉燃烧控制系统已经被研发出来,基于强化学习的射频电路与天线设计已登载在arxiv上,rlschool中也推出了电梯控制等非常实际的模型。在传统机器学习、深度学习已走入寻常百姓家的当下,强化学习俨然成为学士们新的研究对象。
在这次训练营中,每次课讲完,我还要再看一遍回放,才能理解课程细节——这可能也是大部分强化学习新人的做法。可见,即使是强化学习的快餐,在当下也不是能一口就下肚的。也许,在不远的将来,强化学习也会变成跟现在的深度学习一样,同样的算法可以轻易就学会,甚至对新人也同样如此。这是因为老师把课程讲得更通俗了或相关库更完善了吗?大概不完全如此。
首先,来看看人工智