CS229-17讲离散和维度灾难思路整理

机器学习16主要讲的是对离散的状态和行为如何进行强化学习,得到一个优化后的V*,但是,对连续的状态进行强化学习,是本节课的重点。连续状态如果简单的进行离散化处理,会出现维度灾难,并且效果也并不理想,最容易想到的方法就是和监督学习的方式一样,通过对连续的状态进行采样,同时,通过线性拟合得到整个最优的Reward(总收益)。
那么这里面首先有第一个问题:
1.如何进行连续状态下的离散采样?因此这里面吴恩达介绍了两种方法分别是确定化的物理模型方法和线性拟合的方法。因为物理模型的方法,因此是一个确定性状态转移函数,而线性拟合的方法,可以做成确定性的状态转移,也可以做成+sigma形式的随机状态转移函数.通过这些随机状态转移函数或是确定性状态转移函数,我们就可以进行确定状态s0下不同的行为alpha的状态取样了。
2.估计最优值函数。
因为状态是一个连续的,同时,我们的最优值也就变成了连续的。之前讲过通过线性拟合获取到最优的总收益,因此,我们首先要有个一已知状态,能过获取到这个状态的最优值函数的模型。也就是视频中进行的第二步,获取最优值函数。
吴恩达机器学习17-离散与维度灾难 思路梳理 - silver9886@126 - silver9886@126的博客图中最后的v(s)就是最优值函数模型。
3.通过模型得到S0状态在不同的行为alpha下的状态转移S1',s1''等等,通过这些sample估计sample的最优收益v*,同时,通过线性模拟的方法,得到对应的sita值。
吴恩达机器学习17-离散与维度灾难 思路梳理 - silver9886@126 - silver9886@126的博客看到第4行,using model 这个model就是我们在第一步中获取到的model,分为确定性model和随机model。
这样得到sita值之后,将任意一步的s状态带入,就可以直接得到每一步,在每一个行为alpha下的的最优reward值,可以进行策略的选取了。如果是随机模型,则需要和图中一样,去求平均,如果是确定模型,那就直接可以得到在不同的行为alpha下的不同q值,取最大值即可。

 

原文地址:http://blog.163.com/silver9886@126/blog/static/35971862201531310324388/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值