强化学习
文章平均质量分 57
MusicDancing
这个作者很懒,什么都没留下…
展开
-
最大熵模型
1122原创 2023-11-29 10:48:50 · 613 阅读 · 0 评论 -
隐马尔可夫模型笔记
1122原创 2023-11-28 11:30:33 · 536 阅读 · 0 评论 -
什么是EM算法
1122原创 2023-11-24 15:00:44 · 469 阅读 · 0 评论 -
增量学习与在线学习
1. 增量学习原创 2021-03-05 10:50:39 · 3180 阅读 · 1 评论 -
强化学习简介
1.0 强化学习问题的定义包括环境,智能体,状态,动作,奖赏这些核心元素;目前成功的强化学习应用一般需要有足够的训练数据;可能来自完美的模型、很接近真实系统的仿真程序、或通过与环境交互收集到的大量数据。1.1 强化学习的三条发展路线:(1)试错法;(2)最优值控制及其解决方案:值函数和动态规划;(最优控制大部分没有包括学习)马尔科夫决策过程(Markov Descision Process,MDP)--离散随机版的最优控制问题。(3)时序差分(Temporal-Differenc原创 2021-04-13 14:40:23 · 1835 阅读 · 0 评论 -
蒙特卡罗强化学习算法
该算法通过考虑采样轨迹,克服了模型未知给策略估计造成的困难。此类算法需在完成一个采样轨迹后再更新策略的值估计,而基于动态规划的策略迭代和值迭代算法在每执行一步策略后就进行值函数更新。 两者相比,蒙特卡洛算法的效率要低得多,这里的主要问题是蒙特卡洛强化学习算法没有充分利用强化学习任务的MDP结构。时序差分TD(Temporal Difference)学习则结合了动态规划与蒙特卡罗方法的思想,能做到更高效的免模型学习。...原创 2021-09-17 16:53:09 · 317 阅读 · 0 评论