sheng的学习笔记-AI-蒙特卡罗强化学习

coldstarry

已于 2024-09-25 17:05:38 修改

阅读量707

点赞数 13

分类专栏： AI 文章标签：人工智能机器学习

于 2024-09-25 13:47:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/coldstarry/article/details/142503233

版权

AI 专栏收录该内容

40 篇文章 1 订阅

订阅专栏

AI目录：sheng的学习笔记-AI目录-CSDN博客

强化学习：sheng的学习笔记-AI-强化学习（Reinforcement Learning, RL）-CSDN博客

K-摇臂赌博机（K-armed bandit）：https://blog.csdn.net/coldstarry/article/details/142390324

基础知识

什么是免模型学习

亦称“无模型学习”。在现实的强化学习任务中，环境的转移概率、奖赏函数往往很难得知，甚至很难知道环境中一共有多少状态.若学习算法不依赖于环境建模，则称为“免模型学习”(model-free learning)

在免模型情形下，策略迭代算法首先遇到的问题是策略无法评估，这是由于模型未知而导致无法做全概率展开.此时，只能通过在环境中执行选择的动作，来观察转移的状态和得到的奖赏。

什么是蒙特卡罗强化学习

蒙特卡罗是强化学习中的免模型学习

一种直接的策略评估替代方法是多次“采样”，然后求取平均累积奖赏来作为期望累积奖赏的近似，这称为蒙特卡罗强化学习。由于采样必须为有限次数，因此该方法更适合于使用T步累积奖赏的强化学习任务。

策略迭代算法估计的是状态值函数V，而最终的策略是通过状态-动作值函数Q来获得。当模型已知时，从V到Q有很简单的转换方法，而当模型未知时，这也会出现困难。于是，我们将估计对象从V转变为Q，即估计每一对“状态-动作”的值函数。

蒙特卡罗强化学习算法通过考虑采样轨迹，克服了模型未知给策略估计造成的困难。蒙特卡罗强化学习算法的本质，是通过多次尝试后求平均来作为期望累积奖赏的近似，但它在求平均时是“批处理式”进行的，即在一个完整的采样轨迹完成后再对所有的状态-动作对进行更新

这样的速度会比较慢

状态-动作值函数预估

在模型未知的情形下，机器只能是从一个起始状态（或起始状态集合）开始探索环境，而策略迭代算法由于需对每个状态分别进行估计，因此在这种情形下无法实现。例如探索种瓜的过程只能从播下种子开始，而不能任意选择种植过程中的一个状态开始。因此，我们只能在探索的过程中逐渐发现各个状态并估计各状态-动作对的值函数。

在模型未知的情形下，我们从起始状态出发，使用某种策略进行采样，执行该策略T步并获得轨迹

对轨迹中出现的每一对状态-动作，记录其后的奖赏之和，作为该状态-动作对的一次累积奖赏采样值。多次采样得到多条轨迹后，将每个状态-动作对的累积奖赏采样值进行平均，即得到状态-动作值函数的估计

策略改进

同策略和异策略

同策略：在执行【策略评估】和【策略提升】的时候，使用的是相同的策略
异策略：在执行【策略评估】和【策略提升】的时候，使用的不是相同的策略。

使用蒙特卡罗方法进行策略评估后，同样要对策略进行改进

“同策略”(on-policy)蒙特卡罗算法

被评估与被改进的是同一个策略，因此称为“同策略”(on-policy)蒙特卡罗强化学习算法。算法中奖赏均值采用增量式计算，每采样出一条轨迹，就根据该轨迹涉及的所有“状态-动作”对来对值函数进行更新。

“异策略”(off-policy)蒙特卡罗算法

同策略蒙特卡罗强化学习算法最终产生的是-贪心策略。然而，引入-贪心是为了便于策略评估，而不是为了最终使用；实际上我们希望改进的是原始（非-贪心）策略。

能否仅在策略评估时引入-贪心，而在策略改进时却改进原始策略呢。

基于一个分布的采样来估计另一个分布下的期望，称为重要性采样(importance sampling)。

关注

13
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

coldstarry CSDN认证博客专家 CSDN认证企业博客

码龄12年

124: 原创

1万+: 周排名

1万+: 总排名

8万+: 访问

: 等级

2038: 积分

614: 粉丝

843: 获赞

13: 评论

969: 收藏

私信

关注

热门文章

分类专栏

最新评论

sheng的学习笔记-AI-归纳逻辑程序设计（ILP）
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619323887。
sheng的学习笔记-hive框架原理
coldstarry: 谢谢
sheng的学习笔记-hive框架原理
喻师傅: 写的好啊
sheng的学习笔记-docker部署Greenplum
coldstarry: 第一个问题Error response from daemon: driver failed programming external connectivity on endpoint greenplum 回答：可能是在docker的容器端口映射到本机端口有问题，sudo systemctl status docker 先看看守护进程是不是正常运行，然后lsof -i :port_number 查看端口是不是被别的进程占用了，如果都没问题，看看你docker的端口映射是不是配置错了，试试关了防火墙。第二个问题[CRITICAL]:-gpstart failed. (Reason='FATAL: no pg_hba.conf entry for host "::1", user "gpadmin", database "template1", SSL off 你这个问题，我也没遇到过，你是不是改了pg_hba.conf 这个文件？如果改了，建议瞅瞅改动的地方，最好恢复一下
sheng的学习笔记-docker部署Greenplum
violetal: 请教一下，docker run 那部报错了。 /usr/bin/docker-current: Error response from daemon: driver failed programming external connectivity on endpoint greenplum (20e77622b6d2cf2dda9bc4b7a05609a8d22edd5098f9a634232f6a4be0cd07f3): (iptables failed: iptables --wait -t nat -A DOCKER -p tcp -d 0/0 --dport 5432 -j DNAT --to-destination 172.17.0.2:5432 ! -i docker0: iptables: No chain/target/match by that name. (exit status 1)). 目前我遇到过两种报错，还有一种报错是 20240530:02:35:03:000026 gpstart:e869f6d116c0:gpadmin-[CRITICAL]:-gpstart failed. (Reason='FATAL: no pg_hba.conf entry for host "::1", user "gpadmin", database "template1", SSL off ') exiting... 我没用过docker，请教下您要怎样解决呢？

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。