强化学习理论学习
文章平均质量分 84
记录强化学习心得体会
UVCuttt
Trust
展开
-
强化学习实践(三):Monte Carlo Basic(MC Basic \ MC Exploring Starts \ MC Epsilon-Greedy)
强化学习实践(三):Monte Carlo Basic(MC Basic \ MC Exploring Starts \ MC Epsilon-Greedy)原创 2024-09-02 21:59:29 · 300 阅读 · 0 评论 -
强化学习实践(四):Temporal Difference(Sarsa \ Expected Sarsa \ Q-Learning On-Policy \ Q-Learning Off-Policy)
强化学习实践(四):Temporal Difference(Sarsa \ Expected Sarsa \ Q-Learning On-Policy \ Q-Learning Off-Policy)原创 2024-09-02 22:00:23 · 236 阅读 · 0 评论 -
强化学习第十章:Actor-Critic 方法
从QAC到A2C再到离线A2C,最后的DPG为什么是离线的,注意解决的关键问题以及引入的手段。原创 2024-08-28 00:05:17 · 915 阅读 · 0 评论 -
强化学习第九章:策略梯度方法
注意最终的优化函数以及梯度的求解。原创 2024-08-26 21:51:39 · 940 阅读 · 0 评论 -
强化学习第八章:值函数近似
对于随机变量S来说,要求期望就得知道分布,但不知道S的分布假设为均匀分布假设为平稳发布访问到次数更多的权重更大,那其实得按照某个策略访问足够多次,当这个马尔科夫链的状态转移矩阵达到平稳状态的时候才能用,但并不是每个马尔科夫链都能达到平稳分布,所有后面举的例子是用频率代替概率?三个误差函数的理解,DQN的技巧。原创 2024-08-05 18:34:43 · 752 阅读 · 0 评论 -
强化学习第七章:时序差分方法
值迭代和策略迭代算法可以边交互边学习,学习速度快,但是需要环境模型。蒙特卡洛方法从经验(交互结果)中采样学习,学习速度慢(需等Episode完成),不需要环境模型。时序差分方法不需要环境模型,能边交互边学习。MakaBaka想了想RM算法的迭代求解过程,点点了点头。原创 2024-07-01 17:10:29 · 625 阅读 · 0 评论 -
强化学习第六章:随机近似与随机梯度下降
SA算法是一类寻根(方程求解)或优化问题的 **随机迭代** 算法。随机采样,迭代近似。还有,SA相较于其他方法(比如梯度下降)的强大之处在于 **不需要知道** 目标函数或者其导数或梯度的 **表达式** 。原创 2024-05-31 10:18:16 · 1089 阅读 · 0 评论 -
强化学习第五章:蒙特卡洛方法
蒙特卡洛方法是一种统计模拟方法,要统计得有数据,模拟指的是统计的结果(不同问题统计的结果可能不同)尽可能接近真实值。- 蒙特卡洛估计(Monte Carlo Estimation, MCE)将投硬币的结果看作一个随机变量X,那么X的的**概率分布(**正面和反面朝上各自的概率)我们是知道的原创 2024-05-27 18:18:59 · 968 阅读 · 0 评论 -
强化学习第四章:值迭代与策略迭代
根据Contraction Papping Theorem,迭代一定次数之后求解出最优策略和最优状态价值。在值迭代和策略迭代算法对比的具体分析的第四步可以看到,值迭代只算一次,策略迭代理论是无数次。那么折中一点的方法就是截断策略迭代算法。原创 2024-05-22 17:52:23 · 715 阅读 · 0 评论 -
强化学习第三章:贝尔曼最优方程
内容上面原视频很精辟,注意引入的两个数学工具,一个求解最优化,一个contraction mapping theorem。贝尔曼最优公式理解:求解V*的过程,从k=0开始,通过Vk的值(初始值)以及每次都选择动作价值最大的动作(实际变现为动作价值最大的动作占有所有权重,策略),计算状态价值Vk+1,然后迭代,一定次数(exponentially fast)之后即为V*,那其实反映了只要每次选择动作价值最大的,最终策略就是最优的,也是老师视频开头讲的。这个方法也叫做值迭代算法。原创 2024-05-21 16:34:46 · 319 阅读 · 0 评论 -
强化学习第二章:贝尔曼方程
贝尔曼方程最早应用于工程控制理论,又称为动态规划方程,具体可以多查资料多角度理解。在强化学习中,贝尔曼方程描述的是不同状态的状态价值的关系,这些关系有很多,所以实际表现为贝尔曼方程组。状态价值 State Value某个状态出发,采用某个策略,得到的奖励回报的期望称为状态价值,用于评价一个策略的好坏。添加链接描述。原创 2024-05-13 16:38:13 · 822 阅读 · 0 评论 -
强化学习第一章:基础知识
强化学习是一种机器学习的一个分支,目标是在智能体与环境交互的过程中学习最优策略。原创 2024-05-08 10:53:12 · 387 阅读 · 0 评论