强化学习

最新推荐文章于 2024-08-11 18:21:52 发布

Running_Tiger

最新推荐文章于 2024-08-11 18:21:52 发布

阅读量968

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_41455420/article/details/79669430

版权

机器学习专栏收录该内容

23 篇文章 1 订阅

订阅专栏

强化学习

【基础概念】强化学习（Reinforcement Learning）是机器学习的一个重要分支，主要用来解决连续决策的问题。比如围棋可以归纳为一个强化学习问题，我们需要学习在各种局势下如何走出最好的招法。还有我们要种西瓜的过程中需要多次种瓜，在种瓜过程中不断摸索，然后才能总结出好的种瓜策略，将例子中的过程抽象出来就是“强化学习”。

强化学习不像无监督学习那样完全没有学习目标，又不像监督学习那样有非常明确的目标（即 label），强化学习的目标一般是变化的、不明确的，甚至可能不存在绝对正确的标签。最近火热的无人驾驶技术是一个非常复杂、非常困难的强化学习任务，在深度学习出现之前，几乎不可能实现，无人驾驶汽车通过摄像头、雷达、激光测距仪、传感器等对环境进
行观测，获取到丰富的环境信息，然后通过深度强化学习模型中的CNN、RNN 等对环境信息进行处理、抽象和转化，在结合强化学习算法框架预测出最应该执行的动作（是加速、减速、转向等），来实现自动驾驶。当然，无人驾驶汽车每次执行的动作，都会让它到目的地的路程更短，即每次行动都会有相应奖励。

深度强化学习最具有代表性的一个里程碑是 AlphaGo，围棋是棋类游戏中最复杂的游戏，19*19 的棋盘给它带来了 3 361 种状态，这个数量级别已经超过了宇宙中原子数目的状态数。因此，计算机是无法通过像 IBM 深蓝那样暴力搜索来战胜人类，就必须给计算机抽象思维的能力，而 AlphaGo 做到了这一点。

如下图所示，强化学习目标是构建一个系统 Agent，在于环境Environment 交互过程中提高系统的性能。环境的当前状态信息中通常包含一个反馈(Reward)信号和行为 State。Agent通过与环境Environment 交互，Agent 可以通过强化学习来得到一系列行为，通过探索性的试错或借助精心设计的激励系统使得正向反馈最大化。

Agent 可以根据棋盘上的当前局势（环境）决定落子的位置，而游戏结束时胜负的判定可以作为激励信号。

这里写图片描述