动手学强化学习
文章平均质量分 91
上海交通大学出版社《动手学强化学习》
芝士小季
这个作者很懒,什么都没留下…
展开
-
重要性采样
估计一个不同分布的期望Ex∼pfx)]∫xpxfxdx∫xqxqxpxfxdxEx∼qqxpxfx将每个实例的权重重新分配为βxqxpx。原创 2023-12-14 17:45:28 · 19 阅读 · 1 评论 -
模型无关控制方法
一些能够被建模成的问题示例电梯,平行泊车,船舶操纵,生物反应器,直升机,飞机物流,机器人行走,围棋对弈模型无关的控制能够解决上述问题。原创 2023-12-14 17:31:42 · 27 阅读 · 1 评论 -
蒙特卡洛价值预测
直接从经验片段进行学习蒙特卡洛是模型无关的:未知马尔可夫决策过程的状态转移/奖励蒙特卡洛从完整的片段中进行学习:没有使用bootstrapping的方法蒙特卡洛采用最简单的思想:值(value)= 平均累计奖励(mean return)只能将蒙特卡洛方法应用于可分片段的马尔可夫决策过程中即,所有的片段都有终止状态。原创 2023-12-14 09:49:08 · 20 阅读 · 1 评论 -
蒙特卡洛方法
在现实问题中,通常没有明确地给出状态转移Psas′和奖励函数R例如,我们仅能观察到部分片段(episodes)s01a01Rs01s11a11Rs11s21a21Rs21s31⋯sT1s02a02Rs02s12a12Rs12s22a22Rs22s3。原创 2023-12-13 23:05:43 · 15 阅读 · 1 评论 -
基于模型的强化学习
MDP由一个五元组构成SAPsaγRSAPsaγR,其中状态转移PPP和奖励函数RRR构成了动态系统动态系统和策略交互的占用度量ρπsaEa∼πss′∼psa∑t0TγtpstsataρπsaEa∼πss′∼psat0∑Tγtpstsata一个白盒环境给定的情况下,可用动态规划的方法求解最优策略(值迭代和策略迭代)如果环境是黑盒。原创 2023-12-13 22:49:40 · 18 阅读 · 1 评论 -
基于动态规划的强化学习
ERs0γRs1γ2Rs2⋯γ∈01是未来奖励的折扣因子,使得和未来奖励相比起来智能体更重视即时奖励以金融为例,今天的$1比明天的$1更有价值给定一个特定的策略πsS→A即,在状态s下采取动作aπs给定策略π定义VπsERs0γRs1γ2Rs2⋯∣s0sπ即,π。原创 2023-12-13 19:56:50 · 20 阅读 · 1 评论 -
马尔可夫决策过程
是一个或多个事件、随机系统或者随机现象随时间发生演变的过程PSt1∣S1St。原创 2023-12-13 19:53:26 · 72 阅读 · 0 评论 -
探索与利用
动手学强化学习原创 2023-12-13 15:05:40 · 25 阅读 · 0 评论 -
强化学习简介
动手学强化学习原创 2023-12-13 14:48:50 · 53 阅读 · 0 评论