强化学习.

强化学习的通俗理解

定义
强化学习,是在与环境的互动当中,为了达成一个目标而进行的学习过程

第一层主体
三个要素
agent-与环境互动的主体
environment-环境
goal-目标

游戏(环境)的玩法
玩家的目标

第二层主体
强化学习的过程主要是围绕这三个要素展开
state 状态
action 行动
reward 奖励

比如
玩家和环境会处于某种状态state,对于策略类游戏来说,其状态自然就是战场信息

在一个状态之下,玩家需要做出某种行动,即action,根据当前的战场信息,玩家要决定军队的部署与生产资源的配置

reward指agent在一个状态(state)下采取行动后得到的反馈(reward),在强化学习中,reward通常是一个实数,并且可能是0

比如,只有赢得这场战争才能得到一个大于0的分值,可以人为规定,胜利的奖励为1,败北或者和谈收场的奖励为0,而在战争结束之前,任何一次的行动得到的奖励实际上都为0

这个奖励要适当设置,比如我们策略游戏的胜利条件是完整拿下地盘,而不是尽可能地消灭敌方军队,那么就不能把消灭敌方单位获得地分数设置的太高,以免我们的算法更加倾向于消灭地方军队而不是抢地盘

由此我们只要使得我们的算法的得分予以最大化即可,最大化总的奖励,就是强化学习的目的

奖励是一个即时的反馈,而目标是一个长远的结果

第三层主体,核心部分
policy 策略-指在某一状态下改采取什么样的行动,用编程的思想去理解就是,在这一步,要调用什么样的函数
value 价值-价值同样是一个函数,价值函数同样函数,策略函数就取决于价值函数,价值函数有两种,第一种就是state value 状态价值函数
,其输入是一个状态,输出是一个实数,该实数就是该状态的价值,价值的含义,指的是预期将来会得到的所有奖励之和,即处于当前的状态下,玩家能得到的所有奖励的一个期望值
而玩家的目标就是让价值尽可能地大,通过状态价值函数,玩家应该选择进入价值尽可能大的状态,而这是通过特定行动实现的,这就是状态价值函数决定了玩家的策略

另一个函数被称之为state-action-value 状态行动价值函数,指的是,在特定状态下采取某种行动所具有的价值,根据状态行动价值函数,玩家应该选择价值最高的行动

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

丰。。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值