［强化学习Tutorial］ 1. 入门介绍

最新推荐文章于 2024-07-04 18:02:09 发布

weixin_33243099

最新推荐文章于 2024-07-04 18:02:09 发布

阅读量442

点赞数

分类专栏： RL 文章标签：强化学习 reinforcement lerning 机器学习 machine learning

本文链接：https://blog.csdn.net/weixin_33243099/article/details/81751278

版权

本文介绍了强化学习作为机器学习的一个分支，其应用场景包括智能控制和游戏AI。强化学习基于奖励的学习机制通过观察、行动、奖励和新观察来指导决策。在迷宫和机器人运动控制等例子中，设计合适的奖励函数是关键。文章还提到了强化学习在Dota 2和围棋等游戏中的应用，展示其强大的学习和协作能力。

摘要由CSDN通过智能技术生成

强化学习入门介绍

机器学习一般分为三类，监督学习，强化学习和无监督学习。强化学习的应用场景有智能控制（e.g. 如机械臂、机器人的动作控制）以及 AI打电动（i.e. 用强化学习打游戏并且超过人类水平）。强化学习不同于监督学习，他是一种基于reward的学习方式。强化学习的每个步长（time step）都是包含四样东西，首先是初始观测值（observation 1），基于observation 1所采取的动作（action），基于初始观测值以及所采取的动作得到一个reward，最后一个就是做完动作以后的新观测值（observation 2）.
这里写图片描述
以上两幅图片很好的描述了强化学习的学习方式，图中的agent就是黄色机器人，而迷宫就是environment，我们的目标就是让机器人学会在迷宫中吃到尽可能多的豆子。在每个time step，我们的observation 1就是迷宫中所处的位置以及怪物想对于机器人的位置，action就是你想走的方向（比如向前，向左，向右，或者向后），做完这个动作后你会得到一个奖励以及observation 2. 为了让吃尽可能多的豆子，你就需要在到达有豆子的位置给机器人一个高的奖励，