强化学习笔记——第一节

路人NaOH

已于 2024-06-17 10:41:50 修改

阅读量636

点赞数 19

分类专栏：强化学习笔记文章标签：笔记 python 机器学习

于 2024-06-16 17:59:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45661381/article/details/139723775

版权

强化学习笔记专栏收录该内容

10 篇文章

订阅专栏

第一节——基本概念

1.State

即目标对于环境的一个状态，使用 $s_i$ 来表示每一个状态，状态空间表示为 $S=\{s_i\}^n_{i=1}$

2.Action

即目标在每个状态采取的行动，使用 $a_i$ 表示每一个行动，行动空间表示为 $\mathcal{A}(s_i)=\{a_i\}^n_{i=1}$

行动空间依赖于状态，即不同状态对应不同的行动空间

3.Policy

策略告诉了我们目标(agent)在每一个状态采取的动作，用 $\pi$ 来表示策略
$\pi(a_1|s_1)=0$
表示在 $s_1$ 状态下采取动作 $a_1$ 的概率

4.Reward

RL中的独有概念，表示目标在行动过后得到的值

如果Reward大于0，则表示行为受到鼓励
否则，表示不希望发生这样的行为
0表示什么都没发生

5.Trajectory

轨迹，表示状态-行动-奖励链，如下
$s_1\xrightarrow[r=0]{a_2}s_2\xrightarrow[r=0]{a_3}s_5\xrightarrow[r=0]{a_3}s_8\xrightarrow[r=1]{a_2}s_9$

6.Return

返回值，等于整个轨迹上所有的奖励 $r$ 加在一起的结果、

discounted return

返回值为无穷，引入discount rate = $γ\in[0,1)$
$discounted\ return = 0 + \gamma r_1+\gamma^2 r_2 + \gamma^3 r_3 + ……$
好处

使结果为有限值
平衡近远未来的返回值
- 如果γ趋于0，则discounted return值由前面的reward决定
- 反之趋于1，由后面的决定

7.Episode

从开始到停下来时候的状态的轨迹，称为一个Episode
Episode通常都是有限步数

8.MDP

MDP的要素

集合Sets:
- 状态State
- 动作action
- 奖励reward
概略分布probability distribution:
- 状态变换概率State transion probability: $p (s^{'} ∣ s, a)$ 表示从状态s采取动作a到达状态s’的概率
- 奖励概率reward probability: $p (r ∣ s, a)$ 表示从状态s采取动作a得到奖励r的概率
策略Policy: $\pi(a|s)$

MDP代表“马尔可夫决策过程”（Markov Decision Process）。这是一个数学框架，用于描述一种随机的动态系统，在这种系统中，代理（通常是一个智能体或机器学习算法）采取行动，然后观察到环境的状态，从而获得奖励。

马氏过程（MDP的性质 memoryless property）

简单来说，对于一个马式过程，当前状态之和上一个状态有关，和之前所有状态都无关，即计算当前状态发生的概率，只用上一个状态的取值来计算即可。

如，考一个好高中，就可能考一个好大学，考一个好大学，就更有可能找一个好工作。

马尔可夫决策过程

在MDP中，添加了行为变量 $A_t$ 与奖励变量 $R_t$ ，则下一个时刻状态 $S_t$ 由转移概率模型 $P(S_{t+1}|S_t = s_t,A_t=a_t)$ （马尔可夫可能性Markov property）决定，系统输出 $R_t$ 由 $P(R_t|S_t = s_t,A_t=a_t)$ 决定

如，在重点高中 $S_{t}$ 努力学习 $A_t$ ，考上好大学 $R_t$ 的概率为90%，在重点高中不努力学习，考上好大学的概率为50%。

在普通中学努力学习，考上好大学的概率为60%，不努力概率为20%。

在MDP中，我们一般假定链的长度是有限的，并且一般不会太长。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。