DRL的个人学习——part_1

最新推荐文章于 2024-07-19 16:29:56 发布

SCUT-Chung

最新推荐文章于 2024-07-19 16:29:56 发布

阅读量247

点赞数

分类专栏： ML 文章标签：概率论机器学习算法

本文链接：https://blog.csdn.net/m0_46861439/article/details/121685409

版权

ML 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

1.名词解释以及一些简写

蒙特卡洛近似：抽一个或很多个随机样本，用随机样本来近似

PDF： probability density function 概率密度函数，对于连续变量
PMF： probability mass function 概率质量函数，对于离散变量
CDF： cumulative distribution function 累积分布函数
在这里插入图片描述
大写字母，如X，表示随机变量
小写字母，如x，表示对随机变量的观测值/实际取值

2.直观例子

写这个是为了方便理解与认知，我觉得有个大致的图在脑子里更好

2.1 对随机变量求期望相当于消去那个变量

在这里插入图片描述

2.2 随机抽样

根据某些概率分布来取观测值
在这里插入图片描述

3.蒙特卡洛估计

想法：以随机样本来估算真实值

3.1 直观例子：近似定积分

在这里插入图片描述
这个很好理解，毕竟再对n取一个极限就是定积分的定义。

不大好解释，直观点可以认为是将b-a换成v

3.2 期望近似（主要用途）

在这里插入图片描述

这里做个些许的解释，根据概率密度函数做随机采样9，因为知道P（x）约等于对x~x+dx范围的f（x）做积分，所以最好还是会到上面那个随机抽样的例子里面，单一结果时所有的x都有可能被抽到，但整体上看不同取值的x的占比不同。

4.马尔可夫决策过程

我现在的想法是，它表示state以及action都是根据条件函数 p(s|a），p(a|s)来做一个随机抽样作为更新

4.1 名词解释

这里的都可以算得上RL的专业术语，贯穿整个学习的过程

agent：难以翻译，其是动作的执行者
状态（state）：即当前的环境（承载agent的背景），可能存在状态的集合，记作花体字母 S。状态空间可以是离散的，也可以是连续的。状态空间可以是有限集合，也可以是无限可数集合。
状态转移（state transition）：执行动作后agent从上一个状态到下一个，但实际上它也是一个根据条件分布做出的随机抽样
在这里插入图片描述

动作（action）：agent基于当前的状态所做出的决策。动作空间（action space）是指所有可能动作的集合，记作花体字母 A。在超级玛丽例子中，动作空间是 A = {左,右,上}。
环境（environment）与智能体交互的对象，可以抽象地理解为交互过程中的规则或机理。比如游戏里的程序，棋局里的规则
奖励（reward）：指在智能体执行一个动作之后，环境返回给智能体的一个数值。
策略（policy）：针对当下的（不同的），下一步的动作指示（没有执行）。用pi函数表示，这个动作指示也是根据条件概率做一个随机抽样
return：应该叫累计奖励，他是将某个t之后的所有reward进行累加，但是正常情况下我们还是还是比较喜欢用 discounted reward，因为相较于更远的未来，下一个t的reward更重要点，必进如果失败了就没了（以下面那个亚瑟啥后裔为例子），就不存在遥远的t。下面就是discounted reward的表达式，y是折扣率，R表示reward
在这里插入图片描述

此后说的策略默认是随机策略
在这里插入图片描述

4.1.2 综合例子

下面用一个王者农药的例子来指示。
首先，我们的目的是让手机控制亚瑟暴打对面的后裔，强化学习的想法就是找到最好的策略来完成这个目标。
手机控制的亚瑟就是agent，它此时的血量，技能，技能等级，装备，技能是否在cd，是否在对方塔，后羿血量，技能cd…等等都可以称之为状态
在这里插入图片描述动作空间包括技能的释放，移动的方向等，
那么策略就是动作的时序组合，都是为了达成目标（击杀后裔），可以是亚瑟（agent）先放 1（此时已完成状态转移）->直线移动->2->磨血->后羿半血（状态）先1技能再放终结->最后接大招防止逃跑->…
击杀使得我得到了220赏金（reward），这笔钱是因为游戏规则（环境）

4.2 动作价值函数

因为我们还是想着通过训练使他拥有一个策略，所以我们需要一个矫正的刀来使得它往正确的方向发展。这里的Q就是评价的标准，但它是一个关于未来量的函数，我们可以通过求期望来使得未知量被消除。当前状态 st，当前动作 a t ，策略函数 π，π表示动作 A t+1 ,··· ,A n 都是通过π代表的策略里面的条件函数进行随机抽样而来的。
在这里插入图片描述

4.3 最优动作价值函数

就是值取最好的策略函数，坏了，为什么有多个策略函数？应该是指概率函数的不同吧，以离散的为例子，π（“放一技能”|st）=0.5，也可以是π（“放一技能”|st）=0.3
这个是用来指定在某一状态下的最佳动作
这个弄出来应该是为了求最佳策略，不过会不会有些死板？感觉只有那种i那个不怎么该百年的，比如说塔防才能用
在这里插入图片描述

4.4 状态价值函数

只依赖于策略 π 与当前状态 s t ，不依赖于动作，用来评价当前状态对结果的影响。举个例子，还是王者荣耀那个，目标依旧是击杀后羿，亚瑟残血，后羿满血（当让这里的状态没写完）的时候，这V就是0.1，反过来这个v就是0.88
在这里插入图片描述

在这里插入图片描述

5. 价值学习

这块我按作者在视频上的顺序来

5.1 TD算法

它的想法是通过一此不完整的过程来完成对网络参数的更替
困了，睡觉了，考完试再写

SCUT-Chung

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DRL的个人学习——part_1

1.名词解释以及一些简写蒙特卡洛近似：抽一个或很多个随机样本，用随机样本来近似PDF： probability density function 概率密度函数，对于连续变量PMF： probability mass function 概率质量函数，对于离散变量CDF： cumulative distribution function 累积分布函数大写字母，X，表示随机变量...
复制链接

扫一扫