强化学习(Reinforcement Learning)

本文简述强化学习的基本概念,包括环境状态、动作和奖惩制度。强化学习是机器学习的一个分支,通过与环境交互,智能体通过试错学习找到最大化奖励的策略。例如,使用强化学习训练游戏AI,如Flappy Bird,使其能避开障碍。与其他机器学习方法不同,强化学习的特点在于试错学习和延迟回报。后续内容将深入探讨马尔科夫决策过程。
摘要由CSDN通过智能技术生成

本章节开始讲述一些新的东西—强化学习(Reinforcement Learning)内容,这一小节将是对强化学习做一个简单的介绍以及讲述大概的思路。 强化学习是一个非常广泛的话题,强化学习(Reinforcement Learning)也属于机器学习的一个拓展分支,强化学习能够在负责不确定的环境中解决问题。强化学习主要包含3个概念:环境状态、动作、奖惩制度。强化学习的目标是在回报奖惩制度中获得更多的奖励,换句话来说就是模型在训练过程中不断做出尝试,碰到正确的决策就实行奖励,对错误的决策进行惩罚,周而复始,可以在各个环境状态中做出更好的决策。

在这里插入图片描述

state、action、reward之间的关系

PS:agent(智能体)在进行某个任务时,首先与environment进行交互,产生新的状态state,同时环境给出奖励reward,如此循环下去,agent和environment不断交互产生更多新的数据。 众所周知的Alpha Go也可以归结为一个强化学习问题,在围棋中环境状态就是整个已经形成的棋局,行动是指强化学习模型在某个位置落子,奖惩机制就是当前这步棋获得的目数,围棋获胜靠的就是结束时总目数超过对手。强化学习很多的例子都能以围棋走子的思路进行考虑。机器学习算法大致可以分为三种:1. 监督学习(如回归,分类),2. 非监督学习(如聚类,降维),3. 强化学习。但是需要注意的地方是,强化学习不像无监督学习那样没有学习目标,也不像监督学习那样有非常明确的目标,强化学习模型只会向能够得到更多奖励的方向去学习。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值