DRL的个人学习——part_1

1.名词解释以及一些简写

蒙特卡洛近似:抽一个或很多个随机样本,用随机样本来近似

PDF: probability density function 概率密度函数,对于连续变量
PMF: probability mass function 概率质量函数,对于离散变量
CDF: cumulative distribution function 累积分布函数
在这里插入图片描述
大写字母,如X,表示随机变量
小写字母,如x,表示对随机变量的 观测值/实际取值

2.直观例子

写这个是为了方便理解与认知,我觉得有个大致的图在脑子里更好

2.1 对随机变量求期望相当于消去那个变量

在这里插入图片描述

2.2 随机抽样

根据某些概率分布来取观测值
在这里插入图片描述

3.蒙特卡洛估计

想法:以随机样本来估算真实值

3.1 直观例子:近似定积分

在这里插入图片描述
这个很好理解,毕竟再对n取一个极限就是定积分的定义。
在这里插入图片描述
不大好解释,直观点可以认为是将b-a换成v

3.2 期望近似(主要用途)

在这里插入图片描述

这里做个些许的解释,根据概率密度函数做随机采样9,因为知道P(x)约等于对x~x+dx范围的f(x)做积分,所以最好还是会到上面那个随机抽样的例子里面,单一结果时所有的x都有可能被抽到,但整体上看不同取值的x的占比不同。

4.马尔可夫决策过程

我现在的想法是,它表示state以及action都是根据 条件函数 p(s|a),p(a|s)来做一个随机抽样作为更新

4.1 名词解释

这里的都可以算得上RL的专业术语,贯穿整个学习的过程

agent:难以翻译,其是动作的执行者
状态(state):即当前的环境(承载agent的背景),可能存在状态的集合,记作花体字母 S。状态空间可以是离散的,也可以是连续 的。状态空间可以是有限集合,也可以是无限可数集合。
状态转移(state transition):执行动作后agent从上一个状态到下一个,但实际上它也是一个根据条件分布做出的随机抽样
在这里插入图片描述

动作(action):agent基于当前的状态所做出的决策。动作空间(action space)是指所有可能动作的集合,记作花体字母 A。在超级玛丽例子中,动作空间是 A = {左,右,上}。
环境(environment)与智能体交互的对象,可以抽象地理解为交互过程中的规则或机理。比如游戏里的程序,棋局里的规则
奖励(reward):指在智能体执行一个动作之后,环境返回给智能体的一个数值。
策略(policy):针对当下的(不同的),下一步的动作指示(没有执行)。用pi函数表示,这个动作指示也是根据条件概率做一个随机抽样
return:应该叫累计奖励,他是将某个t之后的所有reward进行累加,但是正常情况下我们还是还是比较喜欢用 discounted reward,因为相较于更远的未来,下一个t的reward更重要点,必进如果失败了就没了(以下面那个亚瑟啥后裔为例子),就不存在遥远的t。下面就是discounted reward的表达式,y是折扣率,R表示reward
在这里插入图片描述

此后说的策略默认是随机策略
在这里插入图片描述
在这里插入图片描述

4.1.2 综合例子

下面用一个王者农药的例子来指示。
首先,我们的目的是让手机控制亚瑟暴打对面的后裔,强化学习的想法就是找到最好的策略来完成这个目标。
手机控制的亚瑟就是agent,它此时的血量,技能,技能等级,装备,技能是否在cd,是否在对方塔,后羿血量,技能cd…等等都可以称之为状态
在这里插入图片描述动作空间包括技能的释放,移动的方向等,
那么策略就是动作的时序组合,都是为了达成目标(击杀后裔),可以是亚瑟(agent)先放 1(此时已完成状态转移)->直线移动->2->磨血->后羿半血(状态)先1技能再放终结->最后接大招防止逃跑->…
击杀使得我得到了220赏金(reward),这笔钱是因为游戏规则(环境)

4.2 动作价值函数

因为我们还是想着通过训练使他拥有一个策略,所以我们需要一个矫正的刀来使得它往正确的方向发展。这里的Q就是评价的标准,但它是一个关于未来量的函数,我们可以通过求期望来使得未知量被消除。当前状态 st,当前动作 a t ,策略函数 π,π表示动作 A t+1 ,··· ,A n 都是通过π代表的策略里面的条件函数进行随机抽样而来的。
在这里插入图片描述

4.3 最优动作价值函数

就是值取最好的策略函数,坏了,为什么有多个策略函数?应该是指概率函数的不同吧,以离散的为例子,π(“放一技能”|st)=0.5,也可以是π(“放一技能”|st)=0.3
这个是用来指定在某一状态下的最佳动作
这个弄出来应该是为了求最佳策略,不过会不会有些死板?感觉只有那种i那个不怎么该百年的,比如说塔防才能用
在这里插入图片描述

4.4 状态价值函数

只依赖于策略 π 与当前状态 s t ,不依赖于动作,用来评价当前状态对结果的影响。举个例子,还是王者荣耀那个,目标依旧是击杀后羿,亚瑟残血,后羿满血(当让这里的状态没写完)的时候,这V就是0.1,反过来这个v就是0.88
在这里插入图片描述

在这里插入图片描述

5. 价值学习

这块我按作者在视频上的顺序来

5.1 TD算法

它的想法是通过一此不完整的过程来完成对网络参数的更替
困了,睡觉了,考完试再写

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值