强化学习.

原创于 2021-05-24 20:50:35 发布 · 1.1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#游戏 #强化学习 #算法 #python #深度学习

机器学习笔记同时被 2 个专栏收录

85 篇文章

订阅专栏

深度强化学习

12 篇文章

订阅专栏

强化学习是一种在与环境互动中学习的机制，涉及agent、环境和目标三个要素。它通过状态、行动和奖励来驱动学习过程。策略是agent在特定状态下的行动选择，而价值函数则评估状态或行动的价值，旨在最大化累计奖励。强化学习的目标是通过不断调整策略以求得最优状态和行动价值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

强化学习的通俗理解

定义
强化学习，是在与环境的互动当中，为了达成一个目标而进行的学习过程

第一层主体
三个要素
agent-与环境互动的主体
environment-环境
goal-目标

游戏(环境)的玩法
玩家的目标

第二层主体
强化学习的过程主要是围绕这三个要素展开
state 状态
action 行动
reward 奖励

比如
玩家和环境会处于某种状态state，对于策略类游戏来说，其状态自然就是战场信息

在一个状态之下，玩家需要做出某种行动，即action，根据当前的战场信息，玩家要决定军队的部署与生产资源的配置

reward指agent在一个状态(state)下采取行动后得到的反馈(reward)，在强化学习中，reward通常是一个实数，并且可能是0

比如，只有赢得这场战争才能得到一个大于0的分值，可以人为规定，胜利的奖励为1，败北或者和谈收场的奖励为0，而在战争结束之前，任何一次的行动得到的奖励实际上都为0

这个奖励要适当设置，比如我们策略游戏的胜利条件是完整拿下地盘，而不是尽可能地消灭敌方军队，那么就不能把消灭敌方单位获得地分数设置的太高，以免我们的算法更加倾向于消灭地方军队而不是抢地盘

由此我们只要使得我们的算法的得分予以最大化即可，最大化总的奖励，就是强化学习的目的

奖励是一个即时的反馈，而目标是一个长远的结果

第三层主体，核心部分
policy 策略-指在某一状态下改采取什么样的行动，用编程的思想去理解就是，在这一步，要调用什么样的函数
value 价值-价值同样是一个函数，价值函数同样函数，策略函数就取决于价值函数，价值函数有两种，第一种就是state value 状态价值函数
，其输入是一个状态，输出是一个实数，该实数就是该状态的价值，价值的含义，指的是预期将来会得到的所有奖励之和，即处于当前的状态下，玩家能得到的所有奖励的一个期望值
而玩家的目标就是让价值尽可能地大，通过状态价值函数，玩家应该选择进入价值尽可能大的状态，而这是通过特定行动实现的，这就是状态价值函数决定了玩家的策略

另一个函数被称之为state-action-value 状态行动价值函数，指的是，在特定状态下采取某种行动所具有的价值，根据状态行动价值函数，玩家应该选择价值最高的行动

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

丰。。 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。