《Reinforcement Learning》读书笔记 3：有限马尔科夫决策过程（Finite MDP）

最新推荐文章于 2025-03-12 23:23:27 发布

qjf42

最新推荐文章于 2025-03-12 23:23:27 发布

阅读量1.2k

点赞数 1

分类专栏：强化学习文章标签：强化学习 reinforcement learning 读书笔记 MDP 马尔科夫决策过程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qjf42/article/details/79657139

版权

本文是《Reinforcement Learning: An Introduction》读书笔记，重点介绍了有限马尔科夫决策过程（Finite MDP）。内容涵盖了MDP的几个要素，如状态、动作、奖励集合；马尔科夫性质；目标与奖励假设；策略与价值函数的概念，以及最优策略和最优价值函数的讨论。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

《Reinforcement Learning: An Introduction》读书笔记 - 目录

Agent-Environment Interface

agent
- learner and decision maker
environment
- 与agent交互，包括所有agent之外的东西
environment’s state
- $S_t \in \mathcal S$
action
- $A_t \in \mathcal A(s)$
reward
- $R_t \in \mathcal R \subset \mathbb R$

MDP

MDP

几个要素

state, action, reward集合 S,A,R
- 在Finite MDP中，这几个集合都是有限集
p(s′,r|s,a)=P(St=s′,Rt=r|St−1=s,At−1=a)
- Markov性质，简化问题
  - 只考虑最近的一次action
  - $S_{t-1}$ 中其实仍然可以包含 $S_{t−2}$ 及以前的信息
- 在此基础上，还可以得到几个相关的，如：
  - 状态转移概率 $p(s | s, a)$
  - 期望收益 $r(s, a), r(s, a, s')$
例子
- recycling robot

目标

agent的目标是最大化 $E(\sum f(R_t))$
reward hypothesis:

That all of what we mean by goals and purposes can be well thought of as the maximization of the expected value of the cumulative sum of a received scalar signal (called reward).

一些概念

episode
- episodic task
  - 有终止的或者说一段一段的
- continuing task
  - 无限的或者不确定能否结束的（？）
discounted return
- Gt=Rt+1+γRt+2+γ2Rt+

最低0.47元/天解锁文章

博客等级

码龄17年

12
原创

19
点赞

86
收藏

33
粉丝

关注

私信

热门文章

分类专栏

强化学习 5篇
NLP 2篇
机器学习 4篇

最新评论

N-gram语言模型 & Perplexity & 平滑
baidu_38739567: 您好， back off 这里的α是不是应该是剩余概率除以所有需要用到的上一ngram的p之和呢？再与此次用的上一ngram的P相乘为此次的P，不然的话所有的P相加就超过1了？个人拙见，想跟楼主探讨下。
N-gram语言模型 & Perplexity & 平滑
qjf42 回复 Chase_Ray: 在训练的时候，如果分母（也就是上文 w_{i-n+1},... w{i-1}）不存在，那( w_{i-n+1},... w{i}) 也肯定不存在，所以不用考虑这类情况实际预测的时候，如果预计会出现训练集没有的分母，那在训练时就需要把这类情况考虑进去，加入<unk>，参考https://stats.stackexchange.com/questions/114863/in-kneser-ney-smoothing-how-are-unseen-words-handled
N-gram语言模型 & Perplexity & 平滑
Chase_Ray: 您好，请问如果KneserNey中分母 C(wi-n+1,...,wi) == 0 怎么处理呢，对这个不是很理解
关于词向量的一些理解
super1peng: 您好，最近也再看相关方面的论文，其中有不懂之处想交流一下，方便的话可能给我一下您的联系方式吗

大家在看

AI辅助的自动化测试：如何推动敏捷开发的成功

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。