基本概念篇（三），强化学习基本概念小结

最新推荐文章于 2025-02-01 22:54:31 发布

samurasun

最新推荐文章于 2025-02-01 22:54:31 发布

阅读量616

点赞数 3

分类专栏：强化学习笔记文章标签：人工智能强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/samurasun/article/details/107833147

版权

现在，总结一下我们前面介绍的相关内容：

首先，我们介绍了强化学习的八个基本要素，具体参见：基本概念篇（一），强化学习基本要素
其次，我们对强化学习的过程进行了描述，具体参见：基本概念篇（二），强化学习过程

具体来讲，强化学习可以描述成一个MDP（马尔科夫决策过程），即 $M=\left\{S,A,P,r,\gamma,\tau\right\}$ ，这其中：
$S$ 是状态集；
$A$ 是动作集；
$P$ 是状态转移矩阵；
$r:\;S\times A\rightarrow\left[-R_{max},R_{max}\right]$ 为实时环境奖励；
$\gamma\in\left[0,1\right]$ 为折扣因子；
$\tau=\left(s_0,a_1,s_1,a_2,s_2,\cdots,a_T,s_T\right)$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。