强化学习第三章总结（一个简单的总结，因为没时间敲公式，先放在这里，之后慢慢收拾）

最新推荐文章于 2022-01-12 17:08:25 发布

VIP文章 Uncle_Sugar

最新推荐文章于 2022-01-12 17:08:25 发布

阅读量468

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_29278271/article/details/105614204

版权

MDPs are a classical formalization of sequential decision making, where actions influence not just immediate rewards, but also subsequent situations, or

states, and through those future rewards.

The Agent Environment Interface

强化学习的目的是从交互中学习如何实现一个目标。

Learner 或者说决策者被称为agent。Agent交互的对象被称为环境。Agent 选择一个动作，环境给出rewards并更新state。agent的目标是最大化rewards。

更确切的说，agent和environment在一个离散的时间部署上进行交互t=1,2,3,4,5。在每个时间部署上，agent收到一个环境的状态的表示, $S_t \in S$, 然后agent选择一个动作， $A_t \in Action(s)$，这里意思是说，在s状态下所有能做的动作。一个时间步数之后，Agent收到一个奖励，

这里第二个R是奖励集合，奖励集合是一个标量，是实数集的子集，随后agent 切换到下一个状态S_{t+1},这个过程循环往复会产生一个时间序列。

在一个有限的 MDP中，state集合，action集合，rewards集合数量都是有限的，也就是说，

都是有限集合。在这个条件下，我

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
强化学习第三章总结（一个简单的总结，因为没时间敲公式，先放在这里，之后慢慢收拾）

MDPs are a classical formalization of sequential decision making, where actions influence not just immediate rewards, but also subsequent situations, orstates, and through those future rewards....
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。