图解强化学习原理超详解（二）

最新推荐文章于 2023-08-27 17:43:32 发布

DFCED

最新推荐文章于 2023-08-27 17:43:32 发布

阅读量3.7k

点赞数 13

分类专栏：人工智能算法前沿文章标签：强化学习人工智能机器学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DFCED/article/details/105323023

版权

人工智能算法前沿专栏收录该内容

21 篇文章 12 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

上一篇博客中，我们讲解了强化学习的概念定义，以及详细全面的讲述了马尔可夫过程，这一篇我们将讲述马尔可夫决策过程所涉及到的策略优化及相关概念。

四.策略优化

马尔可夫决策过程对环境进行了描述，那么智能主体如何完成与环境的智能交互？
这时我们就需要进行 策略学习 了
在这里插入图片描述

4.1 策略

在这里插入图片描述
策略是提供给决策者在各个时刻选取行动的规则，记作π=(π0，π1，π2，…， πn，πn+1…)，其中πn是时刻 n选取行动的规则。从理论上来说，为了在大范围寻求最优策略πn，最好根据时刻 n以前的历史，甚至是随机地选择最优策略。但为了便于应用，常采用既不依赖于历史、又不依赖于时间的策略，甚至可以采用确定性平稳策略。

4.2 策略指标

衡量策略优劣的常用指标有折扣指标和平均指标。折扣指标是指长期折扣〔把 t时刻的单位收益折合成0时刻的单位收益的βt(β < 1)倍〕期望总报酬;平均指标是指单位时间的平均期望报酬。

采用折扣指标的马尔可夫决策过程称为折扣模型。业已证明:若一个策略是β折扣最优的，则初始时刻的决策规则所构成的平稳策略对同一

了解本专栏

超级会员免费看

关注

13
点赞
踩
72

收藏

觉得还不错? 一键收藏
打赏
0
评论
图解强化学习原理超详解（二）

上一篇博客中，我们讲解了强化学习的概念定义，以及详细全面的讲述了马尔可夫过程，这一篇我们将讲述马尔可夫决策过程所涉及到的策略优化及相关概念。四.策略优化马尔可夫决策过程对环境进行了描述，那么智能主体如何完成与环境的智能交互？这时我们就需要进行策略学习了...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

DFCED 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。