强化学习
文章平均质量分 94
莫聽穿林打叶聲
Talk is cheap, show me the code.
展开
-
一、强化学习基本概念
下面用一个的例子来解释相关概念。网格世界中,有一个机器人在里面走,需要从Start到达target,中间需要避开forbidden,和boundary。Agent(智能体):机器人:每个网格代表一个状态,状态空间Ssii19:动作空间Aaii15a1(向上移动),a2(向右移动),a1(向下移动),a1(向左移动),a1(原地不动)奖励(Reward):智能体执行一个动作后,会得到的一个奖励,该值是标量。原创 2023-03-16 15:31:43 · 432 阅读 · 0 评论 -
马尔可夫决策过程
MRP贝尔曼方程一般形式:矩阵形式:解析法:适应于规模较小的问题迭代方法:适应于规模较大的问题,常用方法有动态规划、蒙特卡洛模拟、时序差分法vπsEGt∣StsvπsEGt∣StsqπsaEGt∣StsAtaqπsaEGt∣StsAtavπsmaxπ∑aπa∣s∑rpr∣sarγ∑s′ps′∣savπs′。原创 2023-03-22 11:39:28 · 556 阅读 · 0 评论 -
表格型方法
动态规划是一种基于模型的强化学习方法,适用于环境模型已知的情况。它通过迭代更新每个状态的价值函数来找到最优策略。动态规划的主要优点是能够提供问题的最优解或近似最优解,但计算复杂度通常很高,对于大规模或高维问题可能难以求解。蒙特卡洛方法是一种无模型的强化学习方法,适用于环境模型未知的情况。它通过随机生成多个初始状态,并记录每个状态下的奖励,然后根据这些数据来估计价值函数。蒙特卡洛方法的优点是能够处理未知的环境,但可能需要大量的交互和数据才能达到收敛。原创 2023-04-15 00:06:08 · 788 阅读 · 0 评论