强化学习(Reinforcement Learning)

最新推荐文章于 2024-08-11 18:21:52 发布

Ftwhale

最新推荐文章于 2024-08-11 18:21:52 发布

阅读量1k

点赞数 1

分类专栏：深度学习文章标签：人工智能强化学习机器学习

本文链接：https://blog.csdn.net/Ftwhale/article/details/105945010

版权

本文简述强化学习的基本概念，包括环境状态、动作和奖惩制度。强化学习是机器学习的一个分支，通过与环境交互，智能体通过试错学习找到最大化奖励的策略。例如，使用强化学习训练游戏AI，如Flappy Bird，使其能避开障碍。与其他机器学习方法不同，强化学习的特点在于试错学习和延迟回报。后续内容将深入探讨马尔科夫决策过程。

摘要由CSDN通过智能技术生成

本章节开始讲述一些新的东西—强化学习(Reinforcement Learning)内容，这一小节将是对强化学习做一个简单的介绍以及讲述大概的思路。强化学习是一个非常广泛的话题，强化学习(Reinforcement Learning)也属于机器学习的一个拓展分支，强化学习能够在负责不确定的环境中解决问题。强化学习主要包含3个概念：环境状态、动作、奖惩制度。强化学习的目标是在回报奖惩制度中获得更多的奖励，换句话来说就是模型在训练过程中不断做出尝试，碰到正确的决策就实行奖励，对错误的决策进行惩罚，周而复始，可以在各个环境状态中做出更好的决策。

在这里插入图片描述

state、action、reward之间的关系

PS:agent（智能体）在进行某个任务时，首先与environment进行交互，产生新的状态state，同时环境给出奖励reward，如此循环下去，agent和environment不断交互产生更多新的数据。众所周知的Alpha Go也可以归结为一个强化学习问题，在围棋中环境状态就是整个已经形成的棋局，行动是指强化学习模型在某个位置落子，奖惩机制就是当前这步棋获得的目数，围棋获胜靠的就是结束时总目数超过对手。强化学习很多的例子都能以围棋走子的思路进行考虑。机器学习算法大致可以分为三种：1. 监督学习(如回归，分类)，2. 非监督学习(如聚类，降维)，3. 强化学习。但是需要注意的地方是，强化学习不像无监督学习那样没有学习目标，也不像监督学习那样有非常明确的目标，强化学习模型只会向能够得到更多奖励的方向去学习。