强化学习
【基础概念】强化学习(Reinforcement Learning)是机器学习的一个重要分支,主要用来解决连续决策的问题。比如围棋可以归纳为一个强化学习问题,我们需要学习在各种局势下如何走出最好的招法。还有我们要种西瓜的过程中需要多次种瓜,在种瓜过程中不断摸索,然后才能总结出好的种瓜策略,将例子中的过程抽象出来就是“强化学习”。
强化学习不像无监督学习那样完全没有学习目标,又不像监督学习那样有非常明确的目标(即 label),强化学习的目标一般是变化的、不明确的,甚至可能不存在绝对正确的标签。最近火热的无人驾驶技术是一个非常复杂、非常困难的强化学习任务,在深度学习出现之前,几乎不可能实现,无人驾驶汽车通过摄像头、雷达、激光测距仪、传感器等对环境进
行观测,获取到丰富的环境信息,然后通过深度强化学习模型中的CNN、RNN 等对环境信息进行处理、抽象和转化,在结合强化学习算法框架预测出最应该执行的动作(是加速、减速、转向等),来实现自动驾驶。当然,无人驾驶汽车每次执行的动作,都会让它到目的地的路程更短,即每次行动都会有相应奖励。
深度强化学习最具有代表性的一个里程碑是 AlphaGo,围棋是棋类游戏中最复杂的游戏,19*19 的棋盘给它带来了 3 361 种状态,这个数量级别已经超过了宇宙中原子数目的状态数。因此,计算机是无法通过像 IBM 深蓝那样暴力搜索来战胜人类,就必须给计算机抽象思维的能力,而 AlphaGo 做到了这一点。
如下图所示,强化学习目标是构建一个系统 Agent,在于环境Environment 交互过程中提高系统的性能。环境的当前状态信息中通常包含一个反馈(Reward)信号和行为 State。Agent通过与环境Environment 交互,Agent 可以通过强化学习来得到一系列行为,通过探索性的试错或借助精心设计的激励系统使得正向反馈最大化。
Agent 可以根据棋盘上的当前局势(环境)决定落子的位置,而游戏结束时胜负的判定可以作为激励信号。
DeepMind 公司现在在探索如何通过深度强化学习训练一个可以战胜《星际争霸 2》世界冠军的人工智能,拭目以待。
喜欢就点赞评论+关注吧
感谢阅读,希望能帮助到大家,谢谢大家的支持!