强化学习
文章平均质量分 89
强化学习笔记
愚者大大
这个作者很懒,什么都没留下…
展开
-
强化学习——蒙特卡洛算法
与DP算法对比DP算法要求我们了解完整的环境知识。它更像是解决一个确定的有最优解的复杂问题。这类问题我们完全可以通过贝尔曼方程解出最优解,但是为了降低复杂度,我们选择了DP算法。这不像是一个智能体agent应该做的事,反倒像是一个计算方法。而与DP算法不同,MC方法不需要我们知道状态转移矩阵PPP,对于环境的了解和分析主要由agent通过学习获得。这样看来,MC方法更像是智能体在学习一样。基本思想通过大量采样来计算vπsv_\pi(s)vπs和qπsaq_\pi(s,a)q。原创 2023-12-14 16:53:33 · 2039 阅读 · 1 评论 -
强化学习——MDP框架的搭建
简单的说:下一个所处的状态只取决于当前的状态用数学语言描述:P[St+1∣St]=P[St+1∣St,St−1,St−2......S1]P[S_{t+1}|S_{t}] = P[S_{t+1}|S_t,S_{t-1},S_{t-2}......S_1]P[St+1∣St]=P[St+1∣St,St−1,St−2......S1]好处就是:只要当前状态包含的信息足够多,我们就可以只使用当前的信息来推断出下一个状态。首先我们仅引入S,PS,PS,P,我们当前的策略可以理解为:随着PPP矩阵记录的原创 2023-11-28 18:09:18 · 1108 阅读 · 0 评论 -
强化学习——动态规划算法
上次我们讲到了动态规划可以用来计算vπsqπsa,用来评估一个策略的好坏。另外,该算法也包括了优化策略这一目标。动态规划是使用状态价值函数来结构化地搜索最优策略(有些的算法是使用策略价值函数来搜索的)。以下的文章没有详细的数学证明过程。原创 2023-11-28 18:11:21 · 958 阅读 · 0 评论