![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 93
♚℡灬
这个作者很懒,什么都没留下…
展开
-
【强化学习的数学原理】第十课:Actor-Critic
actor 与 criticθt1θtα∇θlnπat∣stθtqtstatqtstat。原创 2023-10-30 17:01:08 · 171 阅读 · 0 评论 -
【强化学习的数学原理】第九课:梯度策略
是参数向量,原本是通过查表得形式得到策略,现在需要传播计算一次才能得到是多少。所对应的真实的action value,我们没法知道,所以我们进行近似。环境的信息是没法全部知道的,我们用随机的梯度替代。:是state value的加权平均。对一个做优化另一个也达到了极值。开始的一步立即奖励均值。能够用来平衡探索和利用。原创 2023-10-30 11:00:53 · 108 阅读 · 0 评论 -
【强化学习的数学原理】第八课:值函数近似
【例子】我们目前使用的都是state value表格形式优点:直观易分析缺点:没法处理大的和连续的state空间或action空间假设我有一些状态s1,…,s∣S∣s_1, \ldots, s_{|\mathcal{S}|}s1,…,s∣S∣,他们的state value是vπ(s1),…,vπ(s∣S∣)v_\pi\left(s_1\right), \ldots, v_\pi\left(s_{|\mathcal{S}|}\right)vπ(s1),…,vπ(s∣S∣),其中π\p原创 2023-10-29 15:18:19 · 169 阅读 · 0 评论 -
【强化学习的数学原理】第七课:时序差分方法
文章目录【例子】✨例子1:✨例子2:✨例子3:【state value的TD算法】✨TD learning 与 MC learning 比较:【action value的TD算法(Sarsa)】✨Sarsa 伪代码:【action value的TD算法(Expected Sarsa)】✨与Sarsa比较:【action value的TD算法(n-step Sarsa)】【optimal action value的TD算法(Q-learning)】✨on-policy learning &&原创 2023-10-28 16:55:47 · 150 阅读 · 0 评论 -
【强化学习的数学原理】第六课:随即近似与随机梯度下降
Mean estimation:使用一组数xkxk来求平均EXEXwk1wk−1kwk−xkwk1wk−k1wk−xkRM 迭代:用含有噪音的测量进行估计gwkηk1gwkηk1gw0g(w)=0gw0wk1wk−akgwkηkwk1wk−akgwkηkSGD迭代:利用梯度采样∇wf。原创 2023-10-27 18:24:44 · 109 阅读 · 0 评论 -
【强化学习的数学原理】第五课:蒙特卡洛方法
exploration:探索,虽然现在知道这个action会获得更多的reward但说不定现在信息不完备,说不定应该去探索其他的action,说不定其他的action value也是很好的。exploitation:充分利用的意思,我在一个状态有许多的action,发现这个action很大,那么我在下一时刻应该采取这个action,未来相信会获得更多的reward。由于依赖于后面的reward,所以需要确保每一个都能访问到防止少访问了一个可能这个是最优解所以导致前面的都不是最优的。原创 2023-10-27 11:11:40 · 215 阅读 · 0 评论 -
【强化学习的数学原理】第四课:值迭代与策略迭代
理解:首先对每个状态计算q-value,之后选择最大的action value表明我知道了如何行动。第一步(policy evaluation):求解贝尔曼公式得到state value看策略如何。这个公式才是贝尔曼公式是state value,但这里只是一个值用来进行迭代趋近的。第二步(policy improvement):通过优化改变其策略为。第二步(value update):利用当前的。,需要进行内部迭代计算(贝尔曼公式迭代算法)第一步(policy update):当。初始化:随机给个策略。原创 2023-10-26 16:06:34 · 226 阅读 · 0 评论 -
【强化学习的数学原理】第三课:贝尔曼最优公式
state value能够用来衡量一个策略是好还是不好,如果满足下面式子,则表明π1\pi_1π1比π2\pi_2π2好vπ1s≥vπ2sfor alls∈Svπ1s≥vπ2sfor alls∈S一个策略π∗\pi^*π∗是最优的:对于所有sss和所有其他策略π\piπ的情况下vπ∗s≥vπsvπ∗s≥vπs首先对某个状态s,有个估计vksv_k(s)v。原创 2023-10-25 20:01:56 · 148 阅读 · 0 评论 -
【强化学习的数学原理】第二课:贝尔曼公式
【例子 -> return重要性】问题:能否用数学工具描述从s1s_1s1出发,哪个策略是最好的?回答:return可以评估一个策略策略1:return1=0+γ1+γ21+…=γ(1+γ+γ2+…)=γ1−γ\begin{aligned}\operatorname{return}_1 & =0+\gamma 1+\gamma^2 1+\ldots \\& =\gamma\left(1+\gamma+\gamma^2+\ldots\right) \\&am原创 2023-10-25 11:31:22 · 235 阅读 · 1 评论 -
【强化学习的数学原理】第一课:基本概念
针对trajectory而言,沿着这个trajectory所有的reward的总和。:是一个实数,在做一个action后会得到的(可以认为是人与机器交互的接口)Tabular representation:可以用表格进行状态转移的表示。:假设按照以下trajectory进行,则无穷长的轨迹来说它会发散掉。:告诉agent我在哪个state应该采取怎样的action。State space:状态空间,为State的集合。:对于每个 State 其采取的行动。我在状态s采取策略a的概率是多少。原创 2023-10-24 16:49:07 · 96 阅读 · 0 评论