Monto Carlo估计动作价值(action values)

最新推荐文章于 2024-09-09 16:43:23 发布

DrCrypto

最新推荐文章于 2024-09-09 16:43:23 发布

阅读量914

点赞数 2

分类专栏： Deep Learning 文章标签：机器学习强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011240016/article/details/75729646

版权

Monto Carlo估计动作价值(action values)

@(Machine Learning)

名词翻译

action 行动，动作
action values 动作价值
state values 状态价值
policy 策略

总体思路

总体的指导思路是：在Model未知时，估计动作价值要比估计状态价值要有用一些。

而当Model是已知的，仅仅利用状态价值就足够决定策略。

Model未知时，只有状态价值无法决定策略。

动作价值估计

必须估计出每一个行动的价值，才可以决定选出最优策略。而行动本身是in状态的。

–> 问题转化为估计 $q_{\pi}(s,a)$ .

也就是说，需要知道每一个状态和行动的组合的价值。

问题

在取样中，不是所有的

最低0.47元/天解锁文章

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

DrCrypto

CSDN认证博客专家 CSDN认证企业博客

码龄11年

648: 原创

1万+: 周排名

124万+: 总排名

490万+: 访问

: 等级

3万+: 积分

2590: 粉丝

4656: 获赞

1036: 评论

8725: 收藏

私信

关注

热门文章

分类专栏

最新评论

思考PC的位数设计
weixin_63494731: 看半天王道答案不知所云，这下搞懂了
中断占据CPU时间的计算问题
争336: 每400ns发出一次中断请求的意思是两次中断请求间隔400ns，两次中断请求之间进行了中断请求的响应和处理，所以整个CPU时间是400ns而不是500ns
关于信道利用率的总结与一道习题的最终解释
mlpaladin2021: 我也觉得不需要加后面一个64。因为确认帧大小是忽略不计的，而且就算有长度，凭什么一个确认帧的发送时延就和一个数据帧的发送时延一样长？长度和速度都不确定
kA*与(kA)*的行列式计算
Ns.豪: 应该是左边同时乘以(kA)−1
死锁习题细究
2401_84023945: 若是考这种阅读理解，那么就算是死锁预防也不会限制用户申请资源的顺序，因为死锁预防只需要破坏四种必要条件中的一种，又不是非得采用顺寻资源分配法，所以说这种题出的就很没水平

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。